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本 书 详细 介绍 了 信息 检索 的 所 有 主要 概念 和 技术 ， 以 及 有 关 信 息 检索 方面 的 所 有 新 变化 ， 使 读者 既 可 
以 对 现代 信息 检索 有 一 个 全 面 的 了 解 ， 又 可 以 获取 现代 信息 检索 所 有 关键 主题 的 详细 知识 。 本 书 的 主要 内 
容 由 信息 检索 领域 的 代表 大 物 Baeza=Yates 和 Ribeiro=Neto 撰 写 ;- 对 于 那些 希望 深入 研究 关键 领域 的 读者 ; 
书 中 还 提供 了 由 其 他 主要 研究 人 员 撰 写 的 关于 特殊 主题 的 发 展现 状 。 

与 上 一 版 相 比 ， 本 版 在 内 容 和 结构 上 都 有 大 量 调整 、 更 新 和 充实 ， 其 中 新 增 内 容 在 60% ~ 70% 左 右 。 具 
体 更 新 情况 如 下 : 

@ 新 增 了 文本 分 类 、Web 爬 取 、 结 构 化 文本 检索 和 企业 搜索 等 章节 ， 以 及 关于 开源 搜索 的 一 个 附录 。 

e 全 面 改写 了 用 户 界面 、 多 媒体 检索 和 数字 图 书馆 等 内 容 。 

e 拓展 了 一 些 章节 ， 介绍 了 信息 检索 方面 的 新 的 重要 进展 ， 如 语言 模型 、 新 的 评价 方法 、 查 询 的 特点 、 
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本 书 论述 信息 检索 的 概念 和 技术 、 这 些 技术 在 搜索 引擎 中 的 应 用 ， 及 其 对 相关 领域 知识 
的 影响 等 ， 主 要 内 容 包括 ， 用 户 界 面 设 计 ; 经 典 的 信息 检索 模型 、 结 果 质 量 评估 和 用 户 相 关 
反馈 ;文档 和 查询 概念 及 其 相关 技术 ;文档 集 索 引 和 搜索 技术 ; Web XAKER., RAH 
序 ; 结构 化 文本 检索 、 多 媒体 检索 和 企业 搜索 ; 图 书馆 系统 和 数字 图 书馆 等 。 

本 书 内 容 广泛 、 细 节 丰 富 、 深 入 浅 出 ， 可 以 作为 高 等 院 校 信息 管理 与 信息 系统 、 计 算 机 
科学 与 技术 、 图 书馆 学 、 情 报 学 、 档 案 学 等 专业 本 科 生 和 研究 生 的 教材 或 参考 书 ， 对 从 事 信 
息 检索 及 系统 分 析 、 设 计 的 实际 工作 者 也 有 较 高 的 参考 价值 。 

Ricardo Baeza-Yates, Berthier Ribeiro-Neto; Modern Information Retrieval: The Concepts 
and Technology behind Search, Second Edition (9780321416919). 

Copyright © 2011 by Pearson Education Limited. 

This translation of Modern Information Retrieval: The Concepts and Technology behind 
Search, Second Edition (9780321416919) is published by arrangement with Pearson Education 
Limited. 


All rights reserved. 
本 书 中 文 简体 字 版 由 英国 Pearson Education 培 生 教育 出 版 集团 授权 出 版 。 
封底 无 防伪 标 均 为 盗版 


版 权 所 有 ， 侵 权 必 究 
本 书法 律 顾问 ”北京 市 展 达 律师 事务 所 


本 书 版 权 登记 号 : 图 字 : 01-2010-6144 

图 书 在 版 编目 (CIP) 数据 

现代 信息 检索 〈 原 书 第 2 版 ) / ( 智 ) 贝 泽 - 耶 芯 (Baeza Yates, R.) 等 著 ; RR. K 
A., RARE. 一 北京 机 械 工 业 出 版 社 ，2012. 8 

《计算 机 科学 丛书 ) 


书 名 原文 Modern Information Retrieval; The Concepts and Technology behind Search, 
Second Edition 


ISBN 978-7-111-38599-8 

1. 现 … 1.00 OR Oh OR I. 情报 检索 W.G252.7 
中 国 版 本 图 书馆 CIP 数据 核 字 (2012) 第 114931 号 

机 械 工 业 出 版 社 (北京 市 西城 区 百 万 庄 大 街 22 号 ”邮政 编码 ”100037) 

ee SC TH A EMT Mle BL ZS] ET 

2012 £ 10 月 第 1 版 第 1 次 印刷 

185mm X 260mm « 43. 25 印张 

标准 书号 : ISBN 978-7-111-38599-8 

定价 ，118. 00 元 


凡 购 本 书 ， 如 有 缺 页 、 倒 页 、 脱 页 ， 由 本 社 发 行 部 调换 
客服 热线 : (010) 88378991; 88361066 

购书 热线 : (010) 68326294; 88379649; 68995259 
投稿 热线 : (010) 88379604 

读者 信箱 ， hzisi@hzbook.com 


| 出 版 者 的 话 


Modern Information Retrieval; The Concepts and Technology behind Search, 2E 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰 出 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
盖 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 既 是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 
显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 
展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 
机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 
世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 将 
工作 重点 放 在 了 赣 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 他 们 更 有 的 数 百 种 教材 中 杜 选 出 Andrew S. Tanenbaum, Bjarne Strous- 
trup，Brain W. Kernighan, Dennis Ritchie. Jim Gray，Afred V. Aho, John E. Hopcroft, 
Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John 
L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书” 为 总 
称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 
格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 圳 助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 和 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 ，www. hzbook. com 
电子 邮件 : hzjsj@hzbook. com z 
联系 电话 : (010) 88379604 HZ Books 


联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 


华章 教育 
华章 科技 图 书 出 版 中 心 


译 者 序 | 
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十 多 年 前 ， 我 刚刚 开始 接触 信息 检索 ， 读 了 几 本 经 典 教材 ， 也 看 了 不 少 论文 ， 但 因为 缺 
乏 有 关 信 息 检 索 系 统 实现 的 文献 ， 上 手 很 慢 。 同 学 从 国外 回来 ， 带 来 了 Ricardo Baeza- Yates 
#25) (Information Retrieval: Data Structures and Algorithms》， 该 书 系 统 地 介绍 了 信息 
检索 领域 的 重要 数据 结构 和 算法 ， 可 操作 性 极 强 ， 我 简直 是 如 获 至 宝 ， 也 因而 记 下 了 Ricar- 
do 的 大 名 。 

几 年 后 ，Ricardo 和 Berthier 合 著 了 本 书 的 第 1 版 ， 拜 读 之 后 ， 惊 叹 于 作者 不 仅 具备 媚 熟 的 
实践 技巧 ， 深 厚 的 理论 功底 ， 而 且 还 有 很 强 的 大 局 观 、 洞 察 力 和 驾驭 素材 的 能 力 。 该 书 训 无 疑 
问 地 成 为 复旦 大 学 研究 生 课 程 “信息 检索 ”的 首选 教材 。 

去 年 春天 ， 好 友 秦 兵 教授 告诉 我 ， 机 械 工业 出 版 社 引进 了 这 本 书 的 第 2 版 ， 打 算 翻 译 成 
中 文 版 ， 如 果 我 有 兴趣 ， 她 可 以 向 出 版 社 推荐 。 虽 然 此 前 从 未 翻译 过 任何 书籍 ， 自 己 的 工作 
负担 也 已 很 重 ， 但 出 于 对 本 书 及 作者 的 推 嵌 ， 我 毫 不 犹 驳 地 接 下 了 这 份 任务 。 

收 到 出 版 社 寄 来 的 样 书后 ， 我 发 现 第 2 版 与 第 1 版 相 比 可 谓 截然 不 同 。 应 该 说 本 书 的 第 
1 版 已 经 足够 优秀 ， 被 世界 上 数 以 百 计 的 大 学 和 学 校 采 纳 为 教科 书 ， 但 两 位 作者 仍然 大 刀 阐 
竹 地 对 许多 章节 进行 了 彻头彻尾 的 修改 ， 并 增加 了 许多 新 的 章节 ， 第 2 版 的 60% ~70% H 
新 的 素材 组 成 即 是 印证 。 

第 2 版 的 巨大 变化 来 自 于 以 下 原因 : 第 一 ， 随 着 互联 网 的 普及 ， 搜 索引 擎 进入 人 们 的 日 
常生 活 中 ， 成 为 获取 信息 的 重要 人 口 ， 用 户 需 求 带 动 了 搜索 引擎 产业 的 飞速 发 展 ， 谷 歌 、 雅 
虎 、 必 应 和 百度 等 企业 成 长 为 极 有 影响 力 的 互联 网 公司 ， 作 者 因而 在 本 书 中 加 入 了 许多 和 搜 
索引 擎 有 关 的 章节 ， 如 搜索 引擎 界面 、 并 行 和 分 布 式 检索 、Web RAS, 第 二 ， 产 业界 的 
繁荣 吸引 了 大 量 的 研究 人 员 和 从 业者 ， 而 搜索 引擎 的 普及 带 来 了 海量 的 真实 用 户 数据 ， 这 些 
都 极 大 地 促进 了 信息 检索 研究 水 平 的 提高 ， 本 书 为 此 增加 了 语言 模型 、 排 序 学 习 等 新 的 研究 
AF; 第 三 ， 撰 写 第 1 版 的 时 候 ， 作 者 还 是 大 学 教师 ， 在 撰写 第 2 版 之 际 ， 他 们 开创 了 自己 
的 搜索 事业 ， 之 后 进入 了 主流 搜索 引擎 公司 工作 ， 丰 富 的 经 历 带 来 更 开阔 的 视野 ， 对 搜索 引 
擎 也 有 了 更 深入 的 了 解 。 第 2 版 不 仅 有 反映 了 信息 检索 产业 界 和 学 术 界 的 变化 ， 也 体现 了 他 们 
在 研究 、 开 发 和 实现 信息 检索 技术 ， 并 将 其 应 用 于 互联 网 过 程 中 的 心得 体会 。 

APES ARSE. KOMPER- ADEM. FE. ESM. ie. THR, R 
施 、 周 金龙 和 刘 昭 等 同事 和 研究 生 帮 助 做 了 许多 资料 整理 、 录 入 、 校 对 等 辅助 工作 ， 李 伟 和 
路 红 两 位 同事 帮助 我 们 了 解 了 多 媒体 检索 所 特有 的 许多 概念 ， 王 春 华 、 盛 思源 两 位 编辑 帮助 
发 现 了 译 稿 中 的 许多 不 足 之 处 ， 本 书 两 位 原作 者 帮助 港 清 了 许多 问题 ， 复 旦 大 学 计算 机 学 院 
为 本 书 的 翻译 提供 了 有 力 支持 ， 在 此 一 并 致谢 。 

翻译 一 本 书 ， 比 我 想象 的 要 困难 很 多 。 好 的 译 者 ， 不 仅 要 对 领域 知识 有 充分 的 了 解 和 掌 
握 ， 也 需要 流畅 精彩 的 文笔 。 然 而 ,“ 知 易 行 难 *， 本 书 的 几 位 译 者 都 是 理工 科 出 身 ， 虽 然 都 
是 具有 一 定 经 历 的 信息 检索 研究 人 员 ， 但 第 一 次 从 事 翻译 工作 ， 水 平 有 限 ， 错 漏 之 处 在 所 难 
免 ， 敬 请 各 位 读者 谅解 并 批评 指正 。 


REF 
2012 年 春 于 浦东 张江 
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自从 本 书 第 1 版 出 版 以 来 ， 信 息 检 索 (Information Retrieval, IR) 领域 发 生 了 许多 变 
化 ， 其 中 许多 和 到 eb 有 关 。 首 先 ，Web 上 的 海量 信息 已 将 搜索 引擎 转化 为 寻找 和 发 现 用 户 
感 兴趣 信息 的 关键 工具 。 其 次 ， 由 于 搜索 引擎 的 本 质 核 心 是 信息 检索 系统 ， 这 就 有 力 地 证 明 
了 信息 检索 技术 可 以 应 用 于 具有 巨大 查询 流量 的 海量 文档 集 。 
紧 随 这 一 演变 趋势 ， 在 本 书 第 1 版 出 现 以 后 的 短 短 几 个 月 内 ， 我 们 在 巴西 和 智利 就 开始 
了 搜索 引擎 的 研究 。 后 来 ， 我 们 进入 谷歌 和 雅虎 这 两 个 主要 的 搜索 引擎 公司 工作 ， 对 搜索 引 
擎 的 一 切 行为 有 了 更 深入 的 了 解 。 因 此 ， 本 书 第 2 版 不 仅 反 映 了 信息 检索 领域 的 变化 ， 也 反 
映 了 我 们 自己 正在 研究 、 开 发 和 实现 的 信息 检索 技术 ， 以 及 将 其 应 用 于 Web 的 经 验 。 
ABS 1 版 并 不 是 按照 标准 方式 书写 的 ， 对 于 我 们 觉得 没有 足够 专业 知识 的 领域 ， 我 们 
邀请 专家 撰写 相关 章节 。 所 以 ， 从 某 种 意义 上 说 ， 我 们 先 于 Web 2. 0 的 发 展 趋势 进行 了 团 
队 协 作 。 我 们 的 宗旨 是 精心 协调 和 监督 所 有 的 写作 内 容 ， 使 本 书 成 为 有 机 的 整体 。 在 某 种 程 
度 上 ,我们 的 努力 颇 有 有 成效。 事实 上 ， 第 1 版 卖 得 非常 好 ， 成 为 了 信息 检索 领域 的 畅销 书 ， 
并 已 重印 多 次 。 该 书 已 被 数 以 百 计 的 大 学 和 学 校 采 纳 。 它 首先 被 翻译 成 韩文 ， 其 次 是 中 文 ， 
还 有 一 个 特别 低 价 的 版 本 已 在 印度 出 版 。 因 此 ， 第 1 版 出 版 后 仅仅 一 两 年 ， 我 们 就 开始 谈论 
第 2 版 。 这 个 想法 一 直到 2004 年 我 们 向 出 版 商 提 交 建 议 书 并 获得 批准 后 才 得 以 实现 。 最 终 
在 2005 年 11 月 ， 也 就 是 四 年 多 前 ， 我 们 开始 第 2 版 的 工作 。 今 天 ， 我 们 终于 完成 了 ! 
在 第 2 版 中 ， 我们 遵循 着 和 第 1 版 相同 的 方法 ， 因 为 它 明显 行 之 有 效 。 尽 管 如 此 ， 我 们 
仍然 是 更 多 章节 的 作者 或 合 著者 ， 而 且 我 们 采取 了 更 强 有 力 的 手段 对 其 他 章节 的 内 容 进 行 设 
计 。 我 们 不 得 不 完全 修改 许多 章节 ， 并 增加 了 许多 新 的 章节 。 因 此 ,第 2 版 的 60% ~70% 
是 由 新 素材 组 成 的 ， 和 第 1 版 的 不 同 之 处 主要 在 以 下 几 个 方面 : 
。 完全 重组 第 1 章 内 容 。 
。 增加 文本 分 类 、Web 扑 取 、 结 构 化 文本 检索 和 企业 搜索 等 新 章节 ， 以 及 一 个 关于 开 
源 搜 索引 警 的 新 附录 。 
。 完全 重 写 用 户 界面 、 多 媒体 检索 和 数字 图 书馆 等 章节 。 
。 扩充 章节 内 容 ， 以 包括 重要 的 新 进展 ， 例 如 语言 模型 、 新 的 评价 准则 、 查 询 特性 、 
基于 集群 的 信息 检索 和 分 布 式 信息 检索 、 排 序 学 习 、 搜 索引 擎 界面 和 个 性 化 等 。 
。 改进 本 书 网 站 ， 其 中 包括 本 书 所 有 章节 的 全 套 幻 灯 片 和 推荐 的 练习 列表 ， 使 之 成 为 
信息 检索 的 参考 教学 资源 。 
最 后 的 成 果 是 ， 和 第 1 版 相 比 ,第 2 版 几乎 有 两 倍 的 篇 幅 ， 并 包含 两 倍 以 上 的 参考 文 
。 总 之 ， 如 果 你 喜欢 本 书 第 1 版 ， 我 们 希望 你 会 更 喜欢 这 个 第 2 版 。 万 一 你 不 喜欢 第 1 
， 我 们 希望 这 一 次 你 会 改变 主意 。 


a & 


Ricardo Baeza- Yates 于 西班牙 巴塞 罗 那 
Berthier Ribeiro- Neto 于 巴西 贝 治 奥 里 藏 特 
2010 年 12 月 
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Ma Web 的 发 展 ， 以 及 时 尚 而 廉价 的 图 形 用 户 界 面 和 海量 存储 设备 的 问世 ， 信 息 检 索 
在 过 去 几 年 中 发 生 了 巨大 的 变化 。 传 统 的 信息 检索 教科 书 已 相当 过 时 ， 为 此 ， 最 近 已 经 出 版 
了 一 些 新 的 信息 检索 书籍 。 不 过 ， 我 们 相信 ， 仍 然 非常 需要 这 样 一 本 书 ， 它 能 够 从 计算 机 科 
学 的 视角 ， 而 不 是 从 用 户 为 中 心 的 视角 ， 以 严密 和 完整 的 方式 来 介绍 这 个 领域 。 本 书 致力 于 
部 分 地 填补 这 一 鸿沟 ， 它 既 可 以 作为 信息 检索 的 人 门 教材 ， 也 可 以 用 于 该 方向 的 研究 生 
课程 。 

本 书 是 由 相互 补充 和 平衡 的 两 部 分 组 成 。 核 心 部 分 包括 由 本 书 设计 者 撰写 或 合 著 的 9 
章 。 第 二 部 分 和 第 一 部 分 紧密 相连 ， 共 分 为 6 章 。 这 部 分 由 相关 领域 的 领先 研究 人 员 撰 写 ， 
介绍 最 新 的 研究 进展 。 所 有 章节 采用 相同 的 符号 和 术语 。 因 此 ， 尽 管事 实 上 邀请 了 多 位 撰 稿 
人 ,但 这 本 书 并 不 是 由 不 同 作者 撰写 的 章节 汇编 成 的 合 著 ， 而 是 一 本 教科 书 。 此 外 ， 与 合 著 
相 比 ， 本 书 的 主要 作者 精心 设计 了 全 书 的 内 容 和 结构 ， 以 便 展示 现代 信息 检索 中 所 有 重要 方 
面 的 内 在 联系 。 

从 信息 检索 模型 到 文本 索引 ， 从 信息 检索 可 视 化 工具 和 界面 到 Web， 从 多 媒体 信息 检 
索 到 数字 图 书馆 ， 本 书 都 广泛 涵盖 ， 而 且 细节 丰富 。 考 虑 到 信息 检索 对 现代 社会 显而易见 的 
相关 性 和 重要 性 ， 我 们 希望 本 书 对 世界 各 地 的 信息 科学 、 计 算 机 科学 与 图 书馆 学 等 学 科研 究 
的 进一步 传播 起 到 促进 作用 。 


Ricardo Baeza- Yates 于 智利 圣地 亚 哥 
Berthier Ribeiro- Neto FEAN AA EAH 
1998 年 10 月 
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我 们 对 在 过 去 几 年 间 向 我 们 提供 了 有 用 和 有 益 的 意见 、 评 论 和 建议 的 人 们 致 以 衷心 的 感 
谢 。 本 书 内 容 和 素材 组 织 的 改进 ， 很 大 程度 上 归功 于 他 们 。 如 果 没 有 他 们 的 帮助 ， 第 2 版 的 
质量 将 大 大 下 降 。 仍 然 存 在 的 任何 错误 一 一 希望 只 有 少量 ， 完 全 是 我 们 的 责任 。 

第 一 ,我们 对 所 有 撰 稿 人 所 体现 出 的 奉献 精神 和 浓厚 兴趣 表示 感谢 ， 他们 是 Eric 
Brown, Carlos Castillo, Marcos Goncalves, David Hawking. Marti Hearst、Mounia Lal- 
mas, Yoelle Maarek, Christian Middleton, Gonzalo Navarro, Dulce Ponceleon, Edie Ras- 
mussen, Malcolm Slaney 和 Nivio Ziviani。 他 们 所 体现 的 专业 知识 是 我 们 所 欠缺 的 。 

第 二 ， 我 们 感谢 对 第 2 版 的 新 内 容 提 供 直接 或 者 间接 贡献 或 影响 的 人 们 ， 他 们 是 Omar 
Alonso (他 指出 我 们 偏离 了 众 包 的 重要 趋势 )、Paolo Boldi (Web 图 压缩 )、Pavel Calado 
(文本 分 类 )、Marco Cristo (他 对 于 文本 分 类 章节 的 意见 导致 了 对 素材 的 整体 重组 )、Chris- 
tos Faloutsos (多 维 索 引 )、Winston Hsu (多 媒体 )、Flavio Junqueira (分 布 式 检索 )、 
Edleno Moura (检索 评价 )、Vanessa Murdock (查询 困难 性 )、Martin Porter ( 词 干 提取 算 
法 )、Mark Sanderson (他 的 尖锐 意见 导致 检索 评价 音节 的 重大 改进 )、Fabrizio Silvestri 
CURL 排序 ) 和 Gleb Skobeltsyn 〈 对 等 网 络 信息 检索 )。 另 外 ， 我 们 还 感谢 巴西 米 纳 斯 吉 拉 
斯 州 联邦 大 学 Marcos Goncalves 的 多 位 研究 生 的 贡献 ， 他 们 评阅 了 文本 分 类 章节 并 书写 了 
大 量 意见 。 

第 三 ， 我 们 需要 感谢 所 有 提供 第 1 版 勘误 信息 、 提 出 改进 建议 和 对 第 2 版 草稿 提出 修改 
意见 的 人 们 。 对 于 勘误 表 ， 我 们 只 提 及 发 现 错 误 的 第 一 人 ， 否 则 名 单 将 太 长 。 他 们 是 : 
Omar Alonso, Jose Hilario Canos, Berkant Barla Cambazoglu、 Ernie Davis, Anne Dieke- 
ma, Bill Dimm, Joaquim Gabarro, Jamie Geddes, Eduardo Graells, Kyoung- Soo Han, 
Claudia Hauff, Shoujie He, Ben Houston, Puay- Leng Lee. Songwook Lee, Shian- Hua 
Lin, Mildrid Ljosland, Chang-Tien Lu, Mari Carmen Marcos, Peter Mika, Vanessa Mur- 
dock, Joanna Plattner, Luz Rello, Hee- Cheol Seo, Ben Shneiderman, Helge Grenager 
Solheim, Ellen Spertus, Markus Stocker, Kazunari Sugiyama, Satoru Takabayashi, Juha 
Takkinen, Luong Minh Thang, Yannis Tzitzikas. Fredrik Wallenberg, Theo van der Wei- 
de, John Westbrook, Judith Winter, Sui Xi, Peng Yong, Hugo Zaragoza 和 Yonghui 
Zhang。 上 述 名 单 可 能 不 全 。 

第 四 ， 我 们 特别 感谢 David Fernandes， 本 书 网 站 上 有 他 制作 的 教学 幻灯 片 。 他 也 耐心 
指出 了 许多 小 错误 和 不 一 致 的 地 方 。 我 们 也 需要 提 及 我 们 的 雇主 雅虎 和 谷歌 ， 他 们 为 我 们 完 
成 撰写 本 书 的 艰巨 任务 提供 了 隐 性 支持 。 

第 五 ， 我 们 感谢 Pearson Education 公司 的 编辑 。 他 们 是 Kate Brewin, Simon Plumtree, 
Owen Knight 和 Rufus Curnow。 在 最 重要 的 出 版 过 程 中 ， 他 们 给 予 了 支持 。Anita Atkinson 
和 Jenny Oates 分 别 是 本 书 的 文字 编辑 和 校对 ， 我 们 感谢 她 们 的 帮助 。 

最 后 也 是 最 重要 的 ， 感 谢 Helena, Rosa 和 我 们 的 孩子 ， 他 们 再 次 忍受 了 我 们 一 连 串 的 
国际 旅行 、 周 末 加 班 和 不 规律 的 工作 时 间 。 在 过 去 的 4 年 里 ， 他 们 总 是 在 问 : 你 们 什么 时 候 
完成 这 本 书 ? 
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我 们 对 在 过 去 几 个 月 的 写作 过 程 中 向 我 们 提供 了 有 用 和 有 益 帮 助 的 各 位 人 士 致 以 衷心 的 
感谢 。 如 果 没 有 他 们 的 关心 ， 本 书 很 可 能 无 法 完成 。 

第 一 ， 我 们 对 所 有 扎 稿 人 所 体现 出 的 奉献 精神 和 浓厚 兴趣 表示 感谢 。 他 们 是 Elisa 
Bertino, Eric Brown, Barbara Catania, Christos Faloutsos, Elena Ferrari, Ed Fox, Marti 
Hearst, Gonzalo Navarro, Edie Rasmussen, Ohm Sornil 和 Nivio Ziviani。 他 们 所 体现 的 专 
业 知 识 是 我 们 所 欠缺 的 。 我 们 也 感谢 他 们 在 编辑 和 交叉 审阅 过 程 中 给 予 的 耐心 ， 这 是 一 种 相 
当 难 以 平衡 的 工作 。 

第 二 ， 我 们 要 感谢 对 出 版 本 书 感 兴趣 的 所 有 人 士 ， 特 别 是 Scott Delman 和 Doug Sery. 

第 三 ， 对 于 Addison Wesley Longman 出 版 社 对 我 们 的 兴趣 和 给 予 的 鼓励 ， 以 及 在 整个 
过 程 中 所 做 的 优秀 工作 ， 我们 在 此 深 表 感谢 。 他 们 的 代表 是 Keith Mansfield. Karen Suth- 
erland, Bridget Allen, David Harrison, Sheila Chatten, Helen Hodge 和 Lisa Talbot。 他 
们 联系 的 评阅 人 阅读 了 本 书 的 早期 〈 也 是 非常 原始 的 ) 方案 ， 并 提供 了 很 好 的 反馈 意见 ， 显 
示 了 深刻 的 洞察 力 。 鉴 于 一 位 匿名 评阅 人 的 客观 评论 , “并 行 和 分 布 式 检索 ”章节 从 不 很 合 
适 的 “信息 检索 应 用 ”部 分 移 到 了 “文本 信息 检索 ”部 分 。 鉴 于 检索 评价 的 重要 性 ， 另 一 位 
热心 的 评阅 人 强烈 建议 我 们 将 它 单列 为 一 章 。 

第 四 ， 我 们 要 感谢 和 我 们 讨论 过 本 书 撰写 计划 的 所 有 人 士 。Doug Oard 很 早 就 评阅 了 本 
书 的 草案 。Gary Marchionini 是 本 书 的 早期 支持 者 ， 并 在 我 们 写 书 的 过 程 中 保持 联系 。 
Bruce Croft 从 一 开始 就 鼓励 我 们 。Alberto Mendelzon 提供 了 Web 搜索 章节 的 初始 方案 和 参 
考 文献 列表 。Ed Fox 在 百 忙 之 中 对 第 1 章 “ 引 言 ” 提 出 了 富有 洞察 力 的 评阅 意见 ， 使 我 们 
极 大 地 改进 了 这 一 章 。 他 也 认真 评阅 了 信息 检索 建 模 的 内 容 。Marti Hearst 很 早 就 对 我 们 的 
方案 深 表 兴趣 ， 在 整个 编辑 过 程 中 提供 了 帮助 ， 并 有 是 一 个 热情 的 支持 者 和 伙伴 。 

第 五 ， 我 们 感谢 我 们 所 在 的 机构 ， 智 利 大 学 和 巴西 米 纳 斯 吉 拉 斯 州 联邦 大 学 计算 机 科学 
系 的 支持 ， 以 及 来 自 国家 研究 机 构 巴西 科技 发 展 委员 会 (CNPq) 、 智 利 国家 科技 研究 委 
员 会 (CONICYT) 和 国际 合作 项 目的 经 费 资助 ， 特 别 是 拉美 科技 发 展 项 目 (CYTED) 项 
H “Web 信息 管理 与 检索 环境 (Environment for Information Managing and Retrieval in the 
World Wide Web, AMYRI, 编号 VIL 13)” 和 巴西 科学 研究 与 发 展 项 目 资助 署 (Finep) 项 
目 “ 移 动 计 算 机 的 信息 系统 (Information Systems for Mobile Computers, SIAM)”, 

最 重要 的 是 ， 感 谢 Helena, Rosa 和 我 们 的 孩子 ,他们 忍受 了 我 们 一 连 串 的 国际 旅行 、 
周末 加 班 和 不 规律 的 工作 时 间 。 
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我 们 感谢 以 下 复制 版 权 材 料 的 许可 : 


图 2-1 和 图 2-12 来 自 Yelp!, http://www. yelp. co. uk/, Yelp! Inc.; 图 2-3 来 自 
NextBio. com; 图 2-5、 图 4-13b、 图 11-10c、 图 11-11a 和 图 11-13 来 自 www. google. co. uk 
提供 的 谷歌 系统 截图 ; 图 2-6 X 8 http: //biosearch. berkerley. edu, M. A. Hearst 版 权 所 有 ; 
图 2-7 来 自 Microsoft Corporation 的 产品 截图 重印 许可 ; 图 2-13 38 Findex, FindEx. com, 
Inc. 及 其 许可 者 版 权 所 有 2010; 图 2-15 来 自 “Graphical query specification and dynamic 
result previews for a digital library, Proceedings of the 11th Annual ACM Symposium on 
User Interface Software and Technology ( UIST’ 98) pp. 143-151 (Jones, S 1998)”, http:// 
doi. acm. org/ 10. 1145/288392. 288595, Association for Computing Machinery, Inc. 版 权 所 有 @1998， 
重印 经 许可 ; 图 2-16 XB “Research: TileBars”, http://people. ischool. berkeley. edu/ ~ 
hearst/research/tilebars. html, M. A. Hearst 版 权 所 有 ; 图 2-17a% Å “Search User Inter- 
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| 第 1 章 


Modern Information Retrieval; The Concepts and Technology behind Search, 2E 


引 言 





1.1 信息 检索 


信息 检索 (Information Retrieval，IR) 是 计算 机 科学 的 一 大 领域 ， 主 要 研究 如 何 为 用 

户 访问 他 们 感 兴趣 的 信息 提供 各 种 便利 的 手段 ， 即 : 
信息 检索 涉及 对 文档 、 网 页 、 联 机 目录 、 结 构 化 和 半 结 构 化 记录 及 多 媒体 对 象 

等 信息 项 的 表示 、 存 储 、 组 织 和 访问 。 信 息 项 的 表示 和 组 织 必须 便于 用 户 访问 他 们 

感 兴趣 的 信息 。 

在 范围 上 ， 信 息 检索 的 发 展 已 经 远 远 超出 了 其 早期 目标 ， 即 对 文档 集 进 行 索引 并 从 中 寻 
找 有 用 的 文档 。 如 今 ， 信 息 检索 的 研究 包括 建 模 、Web 搜索 、 文 本 分 类 、 系 统 架 构 、 用 户 
界面 、 数 据 可 视 化 、 过 滤 和 语言 处 理 技术 。 

在 研究 方面 ， 信 息 检索 可 以 从 两 个 相当 不 同和 互补 的 视角 展开 研究 ， 以 计算 机 为 中 心 的 
视角 和 以 人 为 中 心 的 视角 。 从 以 计算 机 为 中 心 的 视角 来 看 ， 信 息 检索 主要 包括 建立 高 效 的 索 
引 ， 高 性 能 地 处 理 用 户 的 查询 ， 并 开发 排序 算法 以 提高 检索 结果 。 从 以 人 为 中 心 的 视角 来 
看 ， 信 息 检 索 主 要 包括 研究 用 户 的 行为 ， 理 解 他们 的 主要 需求 ， 并 且 相 应 地 确定 检索 系统 的 
组 织 和 操作 。 鉴 于 前 者 在 学 术 界 和 市 场 上 的 主导 地 位 ， 本 书 主 要 论述 以 计算 机 为 中 心 的 
视角 。 


11.1 信息 检索 的 早期 发 展 


5000 多 年 来 ， 人 类 已 经 知道 如 何 组 织 信息 ， 为 以 后 的 检索 和 搜索 服务 。 在 最 通常 的 形 
式 ， 它 一 直 是 通过 编辑 、 储 存 、 组 织 和 索引 泥 板 、 象 形 文字 、 纸 草 卷 和 书籍 实现 的 。 为 存放 
各 种 物品 ， 人 类 还 使 用 了 特殊 用 途 的 建筑 物 ， 并 称 之 为 图 书馆 。 表 示 图 书馆 的 英语 单词 一 个 
是 “library”， 来 自 拉丁 文 的 “liber”， 表 示 “ 书 籍 ”， 另 一 个 是 “bibliothek”， 来 自 希 腊 文 
的 “biblion”， 表 示 “ 纸 草 卷 ”。 

已 知 最 古老 的 图 书馆 在 公元 前 3000 一 公元 前 2500 年 之 间 成 立 于 厄 尔 巴 。 它 位 于 “新 月 
沃 地 ”(Fertile Crescent)， 即 目前 的 叙利亚 北部 。 在 公元 前 7 世纪 ， 亚 述 王 亚 述 巴 尼 拔 在 底 
格 里 斯 河 〈 位 于 今日 的 伊拉克 北部 ) 建造 了 尼 尼 微 图 书馆 ， 该 图 书馆 在 公元 前 612 年 ， 也 就 
是 被 毁灭 的 那 一 年 ， 共 收藏 30 000 多 块 泥 板 。 到 了 公元 前 300 年 ， 马 其 顿 将 军 多 利 买 梭 特 
尔 ， 在 尼罗河 口 以 马其顿 国王 亚历山大 大 帝 〈 公 元 前 356 一 公元 前 323 年 ) 命名 的 亚历山大 
市 ， 建 造 了 亚历山大 图 书馆 。700 年 间 ， 亚 历 山 大 图 书馆 和 同城 的 其 他 图 书馆 一 道 ， 使 得 亚 
历 山大 成 为 西方 世界 的 知识 之 都 [1164]. 

从 那 时 起 ， 图 书馆 日 渐 扩 大 和 繁荣 ， 如 今 已 遍布 世界 各 地 。 它 们 构成 了 人 类 的 集体 记 
忆 ， 并 且 越 来 越 普遍 。 仅 2008 年 ， 美 国人 去 图 书馆 的 次 数 就 达到 了 约 13 亿 次 ， 借 阅 资 料 超 
过 20 亿 件 ， 并 且 这 个 数字 每 年 增加 的 幅度 都 在 10% 以 上 [155]. 

由 于 图 书馆 的 信息 容量 一 直 在 增长 ， 因 此 有 必要 建立 专门 的 数据 结构 一 一 索引 ， 进 行 快 
速 搜索 。 不 管 采用 哪 种 形式 ， 索 引 都 是 每 一 个 现代 信息 检索 系统 的 核心 。 它 们 提供 快速 访问 
数据 的 方法 以 加 快 查询 处 理 。 我 们 将 在 第 9 章 讨论 索引 技术 。 
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数 百 年 来 ， 索 引 的 形式 都 是 手动 建立 的 类 目 集 。 索 引 中 的 每 个 类 目 通常 由 标志 相关 主题 
的 标签 和 指向 相关 文档 的 指针 组 成 。 虽 然 这 些 索引 通常 是 由 图 书馆 和 信息 科学 的 研究 人 员 设 
计 ， 但 现代 计算 机 的 出 现 使 得 自动 构建 大 规模 索引 成 为 可 能 ， 而 这 也 加 快 了 信息 检索 领域 的 
发 展 。 

信息 检索 的 早期 发 展 可 以 追溯 到 20 世纪 50 年 代 Hans Peter Luhn, Eugene Garfield, 
Philip Bagley 和 Calvin Moores 等 开拓 者 所 进行 的 研究 工作 ， 其 中 最 后 一 位 还 发 明了 信息 检 
索 这 个 术语 [1692]。 在 1955 Æ, Allen Kent 和 他 的 同事 发 表 了 一 篇 论文 ， 描述 了 精度 
(precision) AA MZ (recall)9 两 项 评价 指标 [903], 1962 Æ Cyril Cleverdon 在 所 进行 的 
Cranfield 研究 中 沿用 了 它们 L394, 395]. 1963 Æ, Joseph Becker 和 Robert Hayes 出 版 了 
关于 信息 检索 的 第 一 部 书籍 [164]。 在 20 世纪 60 年 代 ，Gerard Salton 和 Karen Sparck 
Jones 等 人 提出 了 现代 信息 检索 中 排序 技术 的 基本 概念 ， 从 而 塑造 了 这 一 领域 。1968 F, 
Salton 出 版 了 他 的 第 一 部 信息 检索 书籍 。1971 年 ，N. Jardine MC. J. Van Rijsbergen 清晰 地 
EHT “RAW” (cluster hypothesis) [827], 1978 年 ， 第 一 届 ACM 信息 检索 会 议 
(ACM Conference on IR, ACM SIGIR) 在 纽约 州 的 罗切斯特 举行 。1979 年 ，C.J. Van Ri- 
jsbergen 出 版 了 介绍 概率 检索 模型 的 专著 《Information Retrieval) [1624], 1983 Æ, Salton 
和 McGill 出 版 了 介绍 向 量 检索 模型 的 经 典 专著 《Introduction to Modern Information Re- 
trieval》L1414]。 从 那 以 后 ,信息 检索 研究 群体 日 浙 扩 大 ， 现 在 已 包含 来 自 世 界 各 地 成 二 上 
万 的 教授 、 研 究 人 员 、 学 生 、 工 程 师 和 从 业 人 员 。 本 领域 最 重要 的 会 议 一 一 ACM 信息 检索 
国际 会 议 CACM International Conference on Information Retrieval, ACM SIGIR) ， 现 在 每 
年 能 吸引 数 百 位 参加 者 和 数 百 篇 投稿 。 


1.1.2 图 书馆 和 数字 图 书馆 中 的 信息 检索 


图 书馆 是 采用 信息 检索 系统 搜寻 信息 的 第 一 批 机 构 。 通 常情 况 下 ， 图 书馆 系统 最 初 是 由 
学 术 机 构 ， 后 来 由 商业 供应 商 开 发 。 第 一 代 图 书馆 系统 是 对 现 有 流程 的 自动 化 ， 例 如 用 作者 
姓名 和 书 名 检索 卡片 目录 。 第 二 代 系 统 则 增加 了 搜索 功能 ， 包 括 主题 词 和 关键 字 的 检索 和 查 
询 操作 。 目 前 正在 部 署 的 第 三 代 系 统 重点 则 是 改进 的 图 形 界 面 、 电 子 表单 、 超 文本 功能 和 开 
放 式 系统 架构 。 

传统 的 图 书馆 管理 系统 供应 商 包 括 Endeavor 信息 系统 公司 、Innovative Interfaces 公司 
AM EOS 国际 公司 。 在 目前 正在 开发 的 研究 系统 中 ， 值 得 关注 的 是 位 于 加 州 大 学 的 加 州 数 字 
图 书馆 所 开发 的 MELVYL 系统 ， 以 及 最 初 由 加 州 大 学 伯克利 分 校 开发 、 最 近 与 利物浦 大 学 
合作 的 Cheshire 系统 。 关 于 这 些 图 书馆 系统 的 进一步 详情 可 参看 第 16 章 。 


1.1.3 舞台 中 央 的 信息 检索 


虽然 已 经 成 熟 ， 但 直到 最 近 ， 信 息 检 索 仍 被 视 为 只 有 图 书 管理 员 和 信息 专家 感 兴趣 的 狭 
罕 领 域 。 这 种 偏见 已 盛行 多 年 ， 尽 管 多 媒体 和 超 文本 的 信息 检索 工具 已 经 在 现代 个 人 计算 机 
用 户 中 迅速 传播 。 万 维 网 (World Wide Web, Web) 在 20 世纪 90 年 代 初 的 引信 彻底 颠覆 
了 所 有 这 些 看 法 。 

1989 ERIR o 伯 纳 斯 - 李 发 明 的 Web， 已 成 为 人 类 知识 和 文化 的 万 能 信息 库 。 它 的 成 功 


O ”在 信息 检索 领域 , “precision” 也 译 为 “ 查 准 率 ”。 一 一 译 者 注 
© ”在 信息 检索 领域 , “recall” 也 译 为 “ 查 全 率 ”。 一 一 译 者 注 
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是 基于 对 标准 用 户 界 面 的 构想 一 一 该 界面 不 随 计算 环境 的 改变 而 改变 ， 并 允许 任何 用 户 创建 
自己 的 文件 。 利 用 Web， 数 百 万 用 户 已 经 创造 了 数 十 亿 的 文档 ， 从 而 构成 了 人 类 历史 上 最 
大 的 知识 宝库 。 一 个 直接 后 果 是 ， 在 Web 上 查找 有 用 的 信息 并 不 总 是 一 个 简单 的 任务 ， 通 
常 需要 提交 查询 给 搜索 引擎 ， 即 运行 一 个 搜索 任务 ， 这 完全 就 是 信息 检索 技术 。 因 此 ， 几 乎 
在 一 夜 之 间 ， 信 息 检 索 与 其 他 技术 一 起 ， 站 在 了 舞台 的 中 央 。 


1.2 信息 检索 问题 


现代 信息 检索 系统 的 用 户 ， 例 如 搜索 引擎 用 户 ， 有 多 种 多 样 的 信息 需求 。 在 最 简单 的 情 
况 下 ， 他 们 寻找 指向 企业 、 政 府 或 者 机 构 主页 的 链接 ; 在 稍微 复杂 的 情况 下 ， 他 们 寻找 完成 
工作 任务 或 即时 需求 的 信息 。 更 复杂 的 信息 需求 〈information need) 则 例如 ， 

寻找 所 有 与 联邦 政府 在 全 国 铁路 运输 公司 (National Railroad Transportation 

Corporation, AMTRAK) 融资 中 所 扮演 角色 相关 的 文档 9 。 

用 户 需 求 的 这 种 完整 表示 并 不 必然 就 构成 提交 给 信息 检索 系统 的 最 佳 形 式 。 相 反 地 ， 用 
户 可 能 首先 要 将 此 信息 需求 转换 成 查询 (query) 或 者 查询 序列 提交 给 系统 。 在 其 最 常见 的 
形式 ， 这 种 转换 总 结 了 用 户 的 信息 需求 ， 并 产生 一 组 关键 字 或 索引 项 。 给 定 用 户 查 询 ， 检 索 
系统 的 主要 目标 是 要 获取 有 用 或 相关 的 信息 并 提交 给 用 户 。 重 点 是 信息 检索 ， 而 不 是 数据 
检索 。 

为 了 有 效 地 满足 用 户 的 信息 需求 ， 检 索 系 统 必须 以 某 种 方式 “解释 ”信息 项 〈 即 库 中 的 
文档 ) 的 内 容 ， 并 根据 和 用 户 查 询 相 关 的 程度 对 文档 进行 排序 。 文 档 内 容 的 “解释 ”涉及 从 
文档 中 提取 文本 的 句法 和 语义 信息 并 利用 这 些 信息 来 匹配 用 户 的 信息 需求 。 

信息 检索 问题 : 信息 检索 系统 的 主要 目标 是 检 出 所 有 和 用 户 查 询 相 关 的 文档 ， 

并 且 把 检 出 的 不 相关 文档 控制 在 最 低 限 度 。 

信息 检索 的 困难 在 于 不 仅 需 要 知道 如 何 从 文档 中 提取 信息 ， 而 且 还 要 知道 如 何 用 它 来 决 
定 相 关 性 。 也 就 是 说 ， 相 关 性 的 概念 对 信息 检索 至 关 重 要 。 

一 个 主要 的 问题 是 ， 对 相关 性 的 评估 是 个 性 化 的 ， 决 定 于 被 解决 的 任务 及 其 上 下 文 。 
例如 ， 相 关 性 可 以 随时 间 而 改变 〈 如 新 信息 的 出 现 )， 随 位 置 而 改变 〈 例 如 ， 最 相关 的 答 
案 是 距离 最 近 的 )， 其 至 随 设备 而 改变 (例如 ， 最 好 的 答案 是 一 篇 简短 的 、 容 易 下 载 和 可 
视 化 的 文档 )。 从 这 个 意义 上 讲 ， 不 存在 能 在 任何 时 间 给 任何 用 户 提供 完美 答案 的 检索 
系统 。 


1.2.1 用 户 的 任务 


检索 系统 的 用 户 必须 把 他 们 的 信息 需求 转换 成 用 系统 提供 的 语言 所 描述 的 查询 。 利 用 信 
息 检索 系统 ， 如 搜索 引擎 ， 通 常 意 味 着 指定 一 组 词 来 传达 信息 的 语义 。 我 们 称 之 为 用 户 在 搜 
索 或 查询 他 们 感 兴趣 的 信息 。 虽 然 搜索 感 兴趣 的 信息 是 Web 检索 的 主要 任务 ， 但 除了 信息 
获取 之 外 ， 搜 索 也 可 用 于 满足 其 他 种 类 的 用 户 需求 ， 如 购买 商品 和 订 位 等 ， 我 们 将 在 1. 4. 3 
节 对 此 加 以 讨论 。 

现在 考虑 这 样 一 种 情况 ， 用 户 的 兴趣 要 么 定义 不 清 要 么 流 于 泛泛 ， 以 至 于 很 难 清 晰 地 制 
定 查 询 。 例 如 ， 用 户 可 能 对 关于 赛车 的 一 般 信 息 感 兴趣 ， 可 能 会 决定 浏览 与 Fl 赛车 、 印 地 
ERMEE 24 小 时 耐力 赛 有 关 的 文档 。 我 们 称 这 种 情况 为 用 户 在 浏览 或 者 导航 文档 集中 的 


日 ”TREC 参考 集 的 168 主题 。 参 看 第 4 章 。 


4 


第 1 章 引 言 


文档 ， 而 不 是 搜索 。 它 仍然 是 一 个 信息 检索 过 程 ， 但 主要 目标 起 初 并 不 太 清 楚 。 这 种 情况 
F, 任务 更 多 的 是 探索 式 搜索 ， 类 似 于 对 感 兴 
趣 信息 的 准 序列 搜索 过 程 。 


在 这 本 书 中 ， 我 们 将 检索 系统 的 不 同 用 户 
所 进行 的 任务 区 分 为 两 种 截然 不 同 的 类 型 : 搜 | 
索 和 浏览 ， 如 图 1-1 所 示 。 第 2 章 将 详细 介绍 文档 集 
这 两 种 不 同 的 任务 。 | ns 


1.2.2 信息 检索 与 数据 检索 


在 信息 检索 系统 的 环境 中 ， 数 据 检索 通常 
不 足以 满足 用 户 的 信息 需求 。 数 据 检 索 主 要 包 
括 确定 集合 中 的 哪些 文档 包含 用 户 查 询 中 的 关键 字 。 事 实 上 ， 信 息 检索 系统 的 用 户 更 注重 检 
出 与 某 个 主题 相关 的 信息 ， 而 不 是 检索 出 符合 用 户 查询 的 数据 。 例 如 ， 信 息 检 索 系 统 的 用 户 
愿意 接受 结果 中 包含 查询 项 同义词 的 文档 ， 即 使 这 些 文档 没有 包含 任何 查询 项 。 也 就 是 说 ， 
在 一 个 信息 检索 系统 中 ， 检 出 的 对 象 可 以 是 不 精确 的 ， 小 错误 可 能 被 忽视 。 

与 此 相反 ， 在 数据 检索 系统 中 ，1000 个 检索 对 象 中 出 现 一 个 错误 对 象 就 意味 着 彻底 失 
败 。 数 据 检索 系统 ， 如 关系 数据 库 ， 其 处 理 对 象 具有 明确 定义 的 结构 和 语义 ; 而 信息 检索 系 
统 处 理 的 是 没有 很 好 结构 的 自然 语言 文本 。 数 据 检索 能 够 为 数据 库 系统 的 用 户 提供 解决 方 
案 ， 但 却 不 能 解决 检索 与 特定 主题 相关 信息 的 问题 。 


1.3 信息 检索 系统 


在 本 节 中 ,我们 提出 信息 检索 系统 软件 架构 的 高 层 视图 ， 并 介绍 响应 用 户 查 询 的 文档 检 
索 和 排序 过 程 。 


1.3.1 信息 检索 系统 的 软件 架构 


为 了 描述 信息 检索 系统 ， 我 们 使 用 一 个 简单 而 通用 的 软件 体系 结构 ， 如 图 1-2 所 示 。 建 
立信 息 检 索 系 统 的 第 一 步 是 建立 文档 集 ， 它 可 以 是 私有 的 ， 或 者 从 Web LICK. EBLA 
情况 下 ， 假 虫 模块 负责 收集 文档 ， 我 们 将 在 第 12 章 对 此 进行 讨论 。 存 储 在 磁盘 上 的 文档 集 
通常 称 为 中 央 资 源 库 (central repository)。 中 央 资 源 库 里 的 文档 需要 进行 索引 ， 以 进行 快速 
检索 和 排序 。 最 常用 的 索引 结构 是 倒 排 索引 (inverted index)， 它 由 文档 集中 所 有 不 同 的 词 
组 成 ， 并 为 每 个 词 建立 一 个 包含 这 个 词 的 文档 列表 。 倒 排 索引 将 在 第 9 章 讨论 。 

文档 集 的 索引 建立 之 后 ， 检 索 过 程 就 可 以 启动 。 它 既 包 括 检 索 满足 用 户 查 询 的 文档 ， 也 
包括 点 击 超 链接 。 在 第 一 种 情况 下 ， 我 们 说 用 户 正 在 搜索 感 兴趣 的 信息 ; 在 第 二 种 情况 下 ， 
我 们 说 用 户 在 浏览 感 兴趣 的 信息 。 本 节 的 其 余部 分 介绍 搜索 。 有 关 浏 览 的 更 详细 的 讨论 ， 以 
及 两 种 情况 的 比较 ， 请 参阅 第 2 章 。 

为 了 进行 搜索 ， 用 户 首 先 指定 一 个 反映 他 们 信息 需求 的 查询 。 接 下 来 ， 对 用 户 查询 进 
行 分 析 和 扩展 ， 例 如 加 入 查询 词 的 拼写 变 体 。 扩 展 的 查询 ， 我 们 称 之 为 系统 查询 ， 将 与 
倒 排 索引 进行 匹配 ， 并 检索 出 一 个 文档 子 集 。 接 下 来 ， 对 文档 子 集 排序 并 把 排 在 最 前 面 
的 文档 返回 给 用 户 。 换 行 排序 的 目的 是 找 出 最 有 可 能 被 用 户 认为 是 相关 的 文档 。 这 构成 
了 信息 检索 系统 中 最 关键 的 部 分 。 正 因为 如 此 ， 第 3 章 的 信息 检索 模型 介绍 将 非常 详细 ， 


图 1-1 用 户 的 任务 


[6] 且 覆 盖 范 围 广泛 。 



































索引 过 程 








检索 和 排序 过 程 











图 1-2 信息 检索 系统 的 高 层 软件 架构 。 其 中 疏 取 是 Web 信息 检索 系统 〈 如 搜索 引 
P) 额外 要 求 的 一 个 模块 


鉴于 判断 相关 性 过 程 中 所 固有 的 主观 性 因素 ， 评 价 答案 集 的 质量 是 提高 信息 检索 系统 性 
能 的 关键 步骤 。 系 统 的 评价 过 程 允许 对 排序 算法 进行 微调 以 提高 结果 的 质量 ,我 们 将 在 第 4 
章 对 此 加 以 讨论 。 最 常见 的 评价 过 程 是 把 信息 检索 系统 产生 的 结果 文档 集 和 人 类 专家 建议 的 
结果 进行 比较 。 

为 了 提高 排序 的 性 能 ， 我 们 可 以 收集 用 户 的 反馈 ， 并 使 用 这 些 信息 来 对 结果 重新 排序 。 
ÉE Web 中， 最 丰富 的 用 户 反 馈 形式 是 在 返回 结果 上 点 击 链接 ， 我 们 将 在 第 5 章 讨 论 。 网 页 
排序 的 另 一 个 重要 信息 来 源 是 页 面 间 的 超 链 接 ， 可 以 从 中 发 现 权 威 度 较 高 的 页 面 ， 我 们 将 在 
第 11 章 讨 论 。 

对 一 个 完全 成 熟 的 信息 检索 系统 〈 例 如 现代 搜索 引擎 ) 而 言 ， 还 有 许多 其 他 的 概念 和 技 
术 ， 其 中 大 多 数 将 在 本 书 的 其 余 章节 内 介绍 。 


1.3.2 检索 和 排序 过 程 


为 了 描述 检索 和 排序 过 程 ， 我 们 对 图 1-2 所 示 的 模块 进行 进一步 前 述 ， 如 图 1-3 所 示 。 
给 定 文 档 集中 的 文档 ， 我 们 首先 进行 禁用 词 消 除 、 词 干 提取 等 文本 操作 ， 并 选择 所 有 项 的 一 
个 子 集 作 为 索引 项 ， 然 后 用 索引 项 来 构建 文档 的 表示 ， 这 种 表示 可 能 比 文档 本 身 小 《取决 于 
选 定 的 索引 项 子 集 ) 。 

给 定 该 文档 表示 ， 有 必要 建立 一 个 文本 索引 。 可 以 使 用 不 同 的 索引 结构 ， 但 最 流行 的 是 
将 在 第 9 章 讨论 的 倒 排 索引 。 生 成 所 需 索 引 的 步骤 就 组 成 了 索引 过 程 ， 该 过 程 必须 在 系统 准 
备 好 处 理 任 何 查询 之 前 离线 执行 。 在 索引 过 程 中 所 耗费 的 资源 〈 时 间 和 存储 空间 ) 由 检索 系 
统 在 处 理 多 次 查询 的 过 程 中 分 摊 。 
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图 1-3 文档 的 索引 、 检 索 和 排序 过 程 


检索 过 程 在 给 定 文档 集 的 索引 之 后 启动 。 用 户 首先 指定 一 个 反映 他 们 信息 需求 的 查询 ， 
然后 对 此 查询 进行 与 文档 类 似 的 分 析 和 修改 操作 。 这 里 的 典型 操作 包括 适当 的 拼写 校对 和 禁 
用 词 消除 等 。 接 下 来 ， 对 转换 后 的 查询 进行 扩展 和 修改 。 例 如 ， 系 统 可 以 对 查询 做 出 修改 建 
X, 并 由 用 户 确 认 。 系 统 对 扩展 和 修改 后 的 查询 进行 处 理 ， 产 生 检 索 文档 集 ， 即 由 包含 查询 
项 的 文档 组 成 的 集合 。 而 先前 建立 的 索引 结构 使 得 快速 的 查询 处 理 成 为 可 能 。 产 生 检 索 文档 
集 的 必要 步骤 就 构成 了 检索 过 程 。 

接 下 来 ， 检 索 出 的 文档 将 根据 与 用 户 需 求 的 相关 性 进行 似 然 度 排 序 。 由 于 用 户 所 能 感知 
的 检索 结果 质量 完全 依赖 于 排序 ， 因 此 这 是 最 为 关键 的 步骤。 第 3 章 我 们 将 对 排序 过 程 进 行 
详细 介绍 。 系 统 将 对 排 在 最 前 面 的 文档 进行 格式 处 理 并 展现 给 用 户 。 这 些 格式 处 理 包 括 找 出 
文档 的 标题 ， 根 据 查询 项 在 文档 中 出 现 的 上 下 文生 成 结果 片段 等 。 























1.4 Web 


在 本 节 中 ， 我 们 讨论 Web 及 其 所 揭示 的 电子 出 版 时 代 。 我 们 还 会 讨论 Web 如 何 改变 搜 
索 ， 也 就 是 说 ，Web 对 搜索 任务 的 主要 影响 。 最 后 ， 我 们 涵盖 诸如 安全 和 版 权 等 由 百 万 级 
的 大 规模 Web 用 户 而 导致 的 实际 问题 。 
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1.4.1 Web ÑE 


在 第 二 次 世界 大 战 结 束 时 ， 美 国 总 统 富兰克林 。 罗斯 福 向 后 来 获得 高 级 政府 职位 的 万 尼 
瓦尔 "布什 咨询 如 何 将 在 战争 中 掌握 的 技术 应 用 到 和 平时 期 。 布 什 首先 做 了 名 为 “Science， 
The Endless Frontier”( 科 学 ， 无 尽 的 前 沿 ) 的 报告 。 该 报告 直接 影响 了 美国 国家 科学 基金 
会 的 建立 。 之 后 ， 他 写 了 一 篇 影响 深远 的 文章 “As We May Think” “我们 可 以 想象 ) 
[303]， 讨 论 了 可 能 在 未 来 几 年 发 明 的 新 硬件 和 软件 。 用 布什 的 话说 ， 

百科 全 书 将 以 全 新 的 形式 出 现 ， 资 料 之 间 由 网 络 关联 ， 随 时 可 以 放 入 扩展 存储 

器 (memex)， 并 可 以 不 断 往 里 面 添加 新 的 信息 [303]。 

“As We May Think” 影 响 了 许多 人 ， 包 插 Douglas Engelbart。 他 在 1968 年 12 月 的 旧 
金山 秋季 联合 计算 机 会 议 (Fall Joint Computer Conference) 上 运行 了 一 个 演示 系统 ， 推 出 
了 首 个 计算 机 上 鼠标、 视频 会 议 系 统 、 远 程 会 议 系统 和 超 文本 。 它 是 如 此 不 可 思议 ， 以 至 于 成 
为 “所 有 演示 之 母 ”L1690j。 演 示 中 最 让 我 们 感 兴趣 的 创新 之 处 是 超 文 本 〈hypertext)。 该 
术语 是 由 Ted Nelson 在 他 的 项 目 “ 世 外 桃源 ”(Xanadu) [1691] 中 创造 的 。 | 

超 文 本 允许 读者 从 一 个 电子 文件 跳 转 到 另 一 个 ， 这 是 带 姆 . 伯 纳 斯 - 李 (Tim Berners- 
Lee) 在 1989 年 所 面临 问题 的 一 个 重要 属性 。 当 时 ， 伯 纳 斯 - 李 在 日 内 瓦 的 欧洲 核子 研究 中 
x: (Conseil Eouropéen pour la Recherche Nucléaire, CERN) 工作 。 那 里 的 研究 人 员 如 果 想 要 与 
他 人 分 享 自己 的 文件 就 必须 重新 格式 化 文件 ， 使 其 与 内 部 的 出 版 系统 兼容 L803]。 这 很 令 人 厌 
烦 ， 产生 了 许多 问题 ， 其 中 许多 问题 需要 由 伯 纳 斯 - 李 去 解决 。 他 意识 到 需要 更 好 的 解决 方案 。 

欧洲 核子 研究 中 心 碰巧 是 欧洲 最 大 的 因特网 节点 。 伯 纳 斯 - 李 认 为 ， 需 要 把 共享 的 文件 
分 散 化 ， 使 得 研究 人 员 能 够 自由 地 分 享 他 们 的 成 果 。 他 认为 通过 因特网 链接 的 超 文本 将 是 一 
个 很 好 的 解决 方案 ， 并 开始 着 手 实现 。1990 年 ， 他 写 了 HTTP 协议 ， 定 义 了 HTML 语言 ， 
编写 了 第 一 个 Web 浏览 器 他 称 之 为 “万 维 网 ， 并 搭建 了 第 一 个 Web 服务 器 。1991 年 ， 
他 在 因特网 上 发 布 了 浏览 器 和 服务 器 软件 。Web 诞生 了 。 





1.4.2 电子 出 版 时 代 


Web 从 一 出 现 就 取得 了 巨大 的 成 功 。 现 在 网 页 的 数量 已 远 远 超过 200479 [487]， 全 世 
FAW Web 用 户 数 也 超过 17 亿 [815]。 此 外 ， 众 所 周知 在 Web 上 有 超过 1 万 亿 个 不 同 的 
URL[L651]， 即 使 其 中 许多 是 指向 动态 页 面 的 指针 ， 而 不 是 静态 的 HTML 页 面 。 基 于 在 线 
广告 甚至 实现 了 经 济 可 持续 发 展 的 可 行 模式 [801]. 

Web 的 出 现 改变 了 这 个 世界 ， 这 一 点 很 少 有 人 能 预见 到 。 然 而 ， 人 们 想 知道 Web AR 
些 特性 使 得 它 如 此 成 功 ， 或 者 说 ， 是 否 存 在 着 某 个 单一 的 特性 ， 对 Web 的 成 功 起 到 决定 性 
的 作用 ? 对 这 个 问题 的 初步 答案 包括 : 简单 的 HTML 标记 语言 、 低 成 本 的 存 取 、 因 特 网 的 
广泛 普及 、 交 互 式 的 浏览 器 界面 ， 以 及 搜索 引擎 。 然 而 ， 虽 然 这 些 技术 提供 了 基本 的 Web 
基础 设施 ， 但 不 是 其 流行 的 根源 。 那 么 特性 是 什么 呢 ? 

要 强调 这 里 我 们 提出 的 观点 ， 让 我 们 观察 200 年 前 某 位 作家 的 一 生 。 

她 在 1796 年 和 1797 年 之 间 完 成 了 地 的 小 说 初稿 。 第 一 次 投稿 却 被 拒绝 。 因 为 

最 终 失 去 了 原稿 ， 所 以 她 在 1812 年 改写 了 小 说 ， 并 终于 在 1813 年 匿名 出 版 ， 署 名 


© 根据 http: //googleblog. blogspot. com/2008/07/we-knew-web-was-big. html 上 的 博文 ， 和 谷歌 宣称 已 经 搜集 了 超过 
1 万 亿 个 不 同 的 URL。 
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为 “一 位 女士 ”[400j] 。 
«Pride and Prejudice) (做 慢 与 偏见 ) 是 英国 史上 最 受 欢迎 的 三 部 书籍 之 一 ， 
另 两 部 是 《The Lord of the Rings) (指环 王 ) fe (Harry Potter) (4) + a) 
系列 丛书 。 它 先后 被 翻拍 为 6 部 电视 剧 和 5 部 电影 [1694]。 最 近 的 一 部 由 Keira 
Knightley 和 Matthew Macfadyen 主演 ， 获 得 了 超过 1 亿美 元 的 全 球 有 党 房 ，Knight- 
ley 女士 并 因此 获得 了 奥斯卡 奖 提名 [1693]. 
简 。 奥 斯 汀 一 生 所 有 的 作品 都 是 匿名 发 表 。 在 整个 2 20 世纪 ， 奥 斯 汀 的 小 说 从 
未 绝版 。 各 种 版 本 的 出 现 对 《Pride and Prejudice》 的 普及 功 不 可 没 。 
Web 所 带 来 的 人 际 关 系 的 根本 性 转变 是 出 版 自由 。 简 。 奥 斯 汀 没有 这 种 自由 ， 所 以 她 
要 不 必须 设法 说 服 出 版 商 相 信 作 品 的 质量 ， 要 不 就 自己 支付 出 版 费用 。 由 于 无 法 支付 ， 因 此 
她 不 得 不 耐心 等 待 了 15 年 ， 直 到 出 版 商 相信 为 止 。 
在 Web 世界 中 ， 这 样 的 情况 不 会 再 发 生 。 人 们 现在 可 以 在 Web 上 发 布 自己 的 想法 ， 无 
须 支 付 任何 代价 ， 也 无 须 说 服 大 型 出 版 公司 的 编 委 会 。 而 这 样 的 想法 经 过 一 夜 就 会 为 数 百 万 
人 所 知晓 。 也 就 是 说 ，Web 几乎 完全 解除 了 由 大 众 传媒 公司 和 自然 地 域 壁 又 所 造成 的 限制 ， 
这 导致 了 自由 出 版 的 新 时 代 的 诞生 。 我 们 称 之 为 电子 出 版 时 代 。 


1.4.3 Web 如 何 改变 搜索 


Web 搜索 是 信息 检索 及 其 相关 技术 当今 最 突出 的 应 用 。 事 实 上 ， 任 何 搜索 引擎 的 排序 
和 索引 组 件 在 本 质 上 都 是 信息 检索 技术 。 这 个 事实 的 一 个 直接 后 果 就 是 ，Web 对 信息 检索 
的 发 展 已 经 产生 了 重大 影响 。 

Web 对 搜索 的 第 一 个 重大 影响 与 文档 集 自身 的 特点 相关 。Web 文档 集 是 由 分 布 在 数 百 
万 个 网 站 上 的 文档 (或 网 页 ) 组 成 ， 并 通过 超 链接 将 页 面 上 的 文字 块 与 其 他 网 页 连接 。 由 于 
Web 文档 集 所 固有 的 分 布 式 性 质 ， 因 此 在 建立 索引 之 前 ， 需 要 收集 所 有 文档 的 副本 并 将 它 
们 存储 在 一 个 中 央 资 源 库 中 。 由 Web 所 带 来 的 这 个 信息 检索 过 程 中 的 新 阶段 称 为 网 页 想 取 
(crawling) ， 将 在 第 12 章 详细 讨论 。 

Web 对 搜索 的 第 二 个 重大 影响 与 文档 集 的 大 小 以 及 每 天 提交 的 用 户 查 询 数量 有 关 。 
Web 比 以 往 任何 已 知 的 文档 集 更 大 ， 且 增长 速度 更 快 ， 以 至 于 现在 的 搜索 引擎 所 需要 处 理 
的 文本 数量 已 经 远 远 超过 200 亿 页 [487]j， 远 大 于 以 往 的 任何 文档 集 。 此 外 ， 虽 然 对 于 用 户 
查询 的 数量 有 各 种 规模 的 估计 ， 但 都 认为 比 以 往 任 何 时 候 都 多 。 海 量 文档 集 和 海量 查询 流量 

的 结合 ， 使 得 搜索 引擎 的 性 能 和 可 扩展 性 要 求 大 大 超过 以 往 任何 信息 检索 系统 L151]。 也 就 
是 说 ， 性 能 和 可 扩展 性 已 成 为 Web 信息 检索 系统 的 重要 特性 ， 其 重要 程度 远 远 超过 了 它们 
在 以 往 检 索 系 统 中 的 地 位 。 虽 然 本 书 不 讨论 搜索 引 敬 的 性 能 和 可 扩展 性 问题 ， 但 是 读者 可 以 
参考 第 11 章 关 于 本 主题 的 文献 〈 见 文献 讨论 章节 ) 。 

Web 对 搜索 的 第 三 个 重大 影响 也 与 海量 文档 集 有 关 。 在 非常 大 的 文档 集中 预测 相关 性 比 
以 前 更 难 。 基 本 上 ， 任 何 查询 都 会 检索 出 很 多 匹配 查询 项 的 文档 ， 这 意味 着 检索 文档 集中 有 许 
多 噪声 。 也 就 是 说 ， 检 索 文档 集中 的 大 部 分 文档 似乎 与 查询 相关 ， 但 实际 上 据 大 多 数 用 户 判断 
却 是 不 相关 的 。 此 问题 首次 出 现 于 早期 的 Web 搜索 引擎 中 ， 并 随 着 Web 的 增长 变 得 更 严重 。 
幸运 的 是 ，Web 还 提供 了 标准 文档 集 所 没有 的 、 缓 解 上 述 问 题 的 新 证 据 来 源 ， 如 超 链 接 、 用 户 
在 结果 文档 中 的 点 击 行为 等 。 在 第 11 章 中 ， 我 们 将 讨论 Web 上 的 相关 性 预测 问题 。 

Web 对 搜索 的 另外 两 个 主要 的 影响 源 于 这 样 的 事实 : Web 已 不 再 仅仅 是 文档 和 和 数据库， 
也 是 一 个 商业 媒介 。 直 接 的 含义 就 是 ， 搜 索 问 题 已 经 超出 了 对 文字 资料 的 寻找 ， 还 扩展 到 其 
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他 用 户 需求 ， 例 如 查询 一 本 书 的 价格 、 酒 店 的 电话 号 码 、 下 载 软件 的 链接 。 对 这 些 类 型 的 信 
息 ， 提 供 有 效 的 答案 经 常 需要 确定 和 关注 对 象 相 关联 的 一 些 结构 化 数据 ， 如 价格 、 地 点 ， 或 
主要 特性 描述 等 。 这 些 新 的 查询 类 型 将 在 第 7 章 讨 论 。 

Web 对 搜索 的 第 五 个 、 也 是 最 后 的 影响 来 自 于 Web 广告 和 其 他 经 济 激励 。 作 为 大 众 化 互 
动 媒 体 ，Web 的 持续 成 功 创造 了 广告 和 电子 商务 等 形式 的 经 济 开发 激励 机 制 。 这 些 激励 措施 也 
导致 了 Web 垃圾 信息 的 泛滥 ， 也 就 是 把 商业 信息 伪装 成 纯粹 的 信息 内 容 。Web 上 的 垃圾 信息 
越 来 越 普遍 ， 有 时 是 如 此 引 人 注 目 ， 并 且 与 真正 的 相关 内 容 相 混淆 ， 使 得 寻找 相关 信息 甚至 
比 以 前 更 困难 。 正 因为 如 此 ， 认 为 垃圾 内 容 使 得 相关 性 变 差 ， 也 就 是 说 垃圾 信息 的 存在 使 得 
现 有 的 排序 算法 产生 的 答案 比 没 有 垃圾 内 容 的 情况 差 很 多 ， 这 也 不 是 一 点 道理 都 没有 。 这 种 
困难 是 如 此 之 大 ， 以 至 于 现在 需要 谈论 敌对 Web 检索 ， 我 们 将 在 第 11 章 对 此 加 以 讨论 。 


1.4.4 Web 上 的 实际 问题 


电子 商务 是 当今 Web 一 个 惠及 亿 万 人 民 的 大 趋势 。 在 电子 交易 中 ， 买 方 通常 提交 信用 
资料 给 供应 商 进行 收费 。 信 用 资料 最 常见 的 形式 就 是 信用 卡号 。 出 于 安全 原因 ， 这 些 信息 通 
常 是 加 密 的 ， 由 机 构 和 公司 部 署 的 验证 过 程 自动 完成 。 

除了 安全 外 ， 另 一 个 引起 关注 的 主要 问题 是 隐私 。 通 常 ， 只 要 不 被 公开 ， 人 们 都 愿意 交 
换 信息 。 原 因 有 很 多 ， 但 最 常见 的 是 防止 由 第 三 方 滥用 自己 的 私人 人 信息。 因此， 隐私 是 另 一 
个 影响 Web 的 部 署 却 并 没有 得 到 妥善 解决 的 问题 。 

另外 两 个 重要 的 问题 是 著作 权 和 专利 权 。Web 数据 的 广泛 分 布 如 何 影 响 各 个 国家 的 版 
权 和 专利 法 ， 目 前 还 很 不 明朗 。 这 一 点 很 重要 ， 因 为 它 影 响 了 建立 和 部 署 大 型 数字 图 书馆 的 
业务 。 举 例 来 说 ， 网 站 是 否 要 像 出 版 商 一 样 监督 发 布 的 所 有 信息 ?如 果 是 的 话 ， 如 果 发 布 的 
信息 被 滥用 ， 它 是 否 和 需要 负责 “即使 它 不 是 信息 源 )? 

此 外 ， 其 他 值得 关注 的 实际 问题 包括 扫描 、 光 学 字符 识别 (Optical Character Recogni- 
tion，OCR) ， 以 及 跨 语言 检索 〈 用 一 种 语言 提交 查询 ， 但 检索 出 的 文档 是 另 一 种 语言 ) 。 但 
是 ， 本 书 将 不 会 对 这 些 实际 问题 进行 详细 介绍 ， 因 为 它 不 是 我 们 的 主要 关注 点 。 有 兴趣 的 读 
者 可 以 参考 Lesk 的 著作 [1005], 


1.5 本 书 的 组 织 结构 


1.5.1 本 书 的 重点 


虽然 信息 检索 越 来 越 引 起 人 们 的 兴趣 ， 但 广泛 覆盖 本 领域 众多 主题 的 现代 信息 检索 教科 
书 仍 很 难 找到 。 本 书 从 计算 机 科学 家 的 视角 出 发 ， 介 绍 信息 检索 领域 的 整体 研究 现状 ， 试 图 
部 分 地 填补 这 一 鸿沟 。 这 意味 着 本 书 的 关注 点 是 信息 检索 系统 所 使 用 的 计算 机 算法 和 技术 。 
图 书馆 专家 和 信息 科学 研究 人 员 的 视角 则 截然 不 同 ， 他 们 从 以 用 户 为 中 心 的 角度 解释 信息 检 
索 系 统 ， 其 关注 点 不 是 如 何 自动 地 结构 化 、 存 储 和 检索 信息 ， 而 是 试图 理解 人 们 如 何 解释 和 
使 用 信息 。 虽 然 本 书 的 大 部 分 章节 专注 于 从 计算 机 科学 家 的 视角 研究 信息 检索 系统 ， 但 在 本 
书 的 用 户 界面 部 分 和 最 后 两 章 的 部 分 章节 依然 讨论 了 以 人 为 中 心 的 视角 。 

本 书 着 重 强 调 与 信息 检索 紧密 相关 的 不 同 领 域 需要 整合 在 一 起 。 因 此 ， 除 了 和 覆盖 文本 检索 、 
图 书馆 系统 、 用 户 界面 和 Web 之 外 ， 本 书 也 介绍 了 可 视 化 、 多 媒体 信息 检索 和 数字 图 书馆 。 

虽然 有 多 位 专家 撰写 了 部 分 章节 ， 本 书 依然 是 一 本 教科 书 ， 其 内 容 和 结构 由 两 个 主要 作 





cir] 


者 进行 了 精心 设计 ， 他 们 也 所 写 或 合 写 了 全 书 17 章 中 的 12 章 。 此 外 ， 所 有 其 他 作者 撰写 的 [12 
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章节 都 已 审慎 修改 、 编 辑 ， 并 被 整合 进入 统一 的 框架 。 该 框架 规定 了 结构 一 致 性 、 统 一 风 
格 、 共 同 词汇 表 、 共 同 书目 ， 以 及 适当 的 交叉 引用 。 在 每 章 的 结尾 讨论 了 研究 问题 、 趋 势 和 
参考 文献 。 这 种 讨论 对 研究 生 以 及 研究 人 员 应 该 是 有 价值 的 。 


1.5.2 本 书 的 内 容 


由 于 信息 检索 是 有 五 十 多 年 历史 的 学 科 ， 一 本 书 只 能 涵盖 本 领域 全 部 知识 的 有 限 部 分 。 
尽管 如 此 ， 为 了 获得 对 信息 检索 技术 广泛 深入 的 理解 ， 仍 然 需要 了 解 一 些 核 心 的 关键 概念 、 
方法 和 技术 。 为 了 尽量 覆盖 这 些 概念 和 技术 ， 我 们 撰写 了 17 章 内 容 ， 构 成 了 本 书 第 2 版 。 
由 于 第 1 版 是 十 多 年 前 出 版 的 ， 因 此 本 书 第 2 版 的 所 有 章节 和 第 1 版 截然 不 同 。 事 实 上， 一 
半 以 上 的 素材 是 新 的 或 已 重 写 ， 目 的 或 者 是 为 了 全 面 覆盖 最 新 的 研究 结果 ， 或 者 是 为 了 简化 
符号 ， 或 者 是 为 了 介绍 第 1 版 尚未 涉及 的 相关 主题 。 为 了 说 明 这 一 点 ， 本 书 增加 了 文本 分 
类 、 结 构 化 文本 检索 、Web 爬 取 ， 以 及 企业 搜索 等 章节 。 此 外 ， 对 相关 反馈 、 多 媒体 、 
Web、 图 书馆 系统 、 数 字 图 书馆 、 检 索 评 价 和 建 模 的 章节 已 进行 了 大 量 修改 和 更 新 。 

图 1-4 说 明了 本 书 的 组 织 结 构 。 本 章 介 绍 信 息 检索 问题 、Web 的 简 史 ， 并 分 析 其 对 信息 
检索 的 影响 。 因 为 搜索 已 经 成 为 信息 检索 技术 的 主要 应 用 领域 ， 所 以 第 2 章 论述 用 户 搜 索 界 
面 的 设计 。 第 2 章 是 全 新 的 ， 和 第 1 版 的 用 户 界面 章节 截然 不 同 ， 旨 在 为 读者 理解 信息 检索 
问题 提供 一 个 自 顶 向 下 的 视角 。 


引言 索 界面 信息 检索 问题 和 
(Cm re )| man 
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接 下 来 的 三 章 涉及 经 典 的 信息 检索 模型 ， 包 括 排序 模型 、 结 果 质 量 评价 各 用户 相关 反 
馈 。 这 三 章 超 过 一 半 的 素材 是 新 的 ， 证 明了 信息 检索 在 过 去 10 年 的 快速 发 展 。 我 们 的 讨论 
广泛 而 深入 。 第 3 章 讨论 14 个 不 同 的 信息 检索 模型 ， 这 些 模型 旨 在 对 答案 集中 的 每 个 文档 
打分 并 按照 分 数 排序 。 我 们 从 经 典 的 布尔 、 向 量 和 概率 模型 开始 ， 然 后 对 这 3 个 经 典 模 型 中 
的 每 一 个 引入 3 个 变种 ， 包 括 基于 集合 的 模型 、 广 义 向 量 模型 、BM25 和 语言 模型 。 第 4 章 
就 信息 检索 系统 的 结果 质量 评价 ， 探 讨 了 许多 技术 细节 。 我 们 首先 进行 了 简单 的 历史 回顾 ， 
包括 Cleverdon 针对 索引 系统 评价 的 开创 性 工作 ， 及 其 如 何 发 展 成 为 Cranfield 范式 。 接 下 
来 介绍 精度 -召回 率 关 系 图 ， 针 对 相关 性 分 级 的 折扣 累积 增益 (Discounted Cumulative 
Gain, DCG) 指标 ， 以 及 针对 不 完全 相关 性 评价 的 二 元 偏好 〈Bpref) 指标 。 我 们 同时 也 讨 
论 了 斯 皮尔 曼 系 数 和 肯 德 尔 等 级 相关 系数 等 排序 关联 度 指 标 ， 并 详尽 介绍 了 TREC 文档 集 
和 其 他 众多 的 小 测试 文档 集 。 最 后 ， 讨 论 Web 特有 的 评价 方法 ， 例 如 并 排 面 板 〈side-by- 
side panels)， 并 讨论 如 何 将 点 击 数据 解释 为 相关 性 指标 的 方法 。 第 5 章 讨 论 用 户 进 行 相关 
反馈 的 隐 式 和 显 式 方法 ， 以 及 如 何 使 用 它们 来 改变 最 终 的 排序 。 这 些 方法 和 查询 扩展 技术 直 
接 交 织 在 一 起 。 这 三 章 涵盖 了 所 有 经 典 的 信息 检索 基本 概念 ， 即 解决 信息 检索 问题 并 评价 结 
果 的 技术 和 方法 。 

接 下 来 的 三 章 讨论 文档 和 查询 的 概念 和 相关 技术 ， 以 及 如 何 通 过 文本 分 类 组 织 文 档 和 查 
询 。 第 6 章 讨论 文本 属性 ， 例 如 词汇 在 文档 的 分 布 、 自 然 语 言 模型 、SGML、HTML 和 
XML 等 标注 语言 、 文 本 处 理 与 分 析 ， 以 及 压缩 方法 。 第 7 章 讨论 各 种 查询 属性 ， 包 括 查 询 
关键 词 的 分 布 、Web 查询 的 特点 ， 以 及 基于 关键 词 的 查询 语言 、 结 构 化 形式 和 查询 协议 等 。 
第 8 章 讨 论 组 织 文档 和 查询 的 算法 和 方法 。 我 们 讨论 的 重点 是 文档 分 类 ， 因 为 这 是 最 常见 的 
情况 。 我 们 区 分 无 监督 和 监督 的 文本 分 类 算法 。 对 于 无 监督 的 方法 ， 我 们 介绍 文本 聚 类 算 
法 ， 如 K 均值 算法 及 其 变种 。 对 于 监督 方法 ， 我 们 讨论 6 种 不 同类 型 的 文本 分 类 算法 ， 即 
决策 树 、 最 近邻 、Rocchio、 朴 素 贝 叶 斯 、 支 持 向 量 机 和 集成 分 类 器 。 我 们 还 会 详细 讨论 如 
何 评价 分 类 结果 。 鉴 于 文本 分 类 如 今 是 信息 检索 的 一 项 关键 技术 ， 所 以 本 章 是 全 新 的 ， 也 是 
本 书 和 第 1 版 的 重要 区 别 之 一 。 

再 接 下 来 的 两 章 讨 论 索 引 和 搜索 文档 集 使 用 的 技术 。 第 9 章 讨论 各 种 索引 和 搜索 技术 ， 
包括 序列 搜索 、 倒 排 索 引 和 后 缀 数组 。 我 们 还 介绍 索引 压缩 技术 ， 以 及 如 何 使 用 它们 来 提高 
检索 速度 。 第 10 章 讨论 并 行 和 分 布 式 索 引 以 及 (查询 ) 搜索 过 程 的 体系 结构 和 算法 。 提 交 
给 搜索 引擎 的 海量 查询 只 能 由 分 布 式 计算 机 集群 处 理 ， 这 是 现代 Web 的 主要 趋势 。 

之 后 的 两 章 履 盖 Web 文档 的 息 取 、 检 索 和 排序 。 第 11 章 讨 论 Web 检索 ， 介 绍 Web 的 
属性 ， 搜 索引 警 的 体系 结构 ，HITS 和 Page rank 等 链接 分 析 算 法 ， 以 及 Web 文档 排序 。 虽 
然 本 章 没 有 包括 该 领域 的 全 部 研究 一 一 当然 任何 一 章 都 不 可 能 ， 但 它 的 确 说 明了 搜索 引擎 如 
何 获 益 于 信息 检索 算法 和 技术 。 第 12 章 讨论 Web 疏 取 。 我 们 首先 简要 回顾 了 Web MRK 
术 的 发 展 历史 ， 然 后 讨论 Web 仆 取 的 架构 和 实施 问题 。 接 下 来 是 调度 算法 ， REET 
算法 的 核心 部 分 ， 它 确定 下 一 步 应 该 仆 取 哪些 网 页 。 最后， 我 们 讨论 Web 疏 取 的 评价 过 程 。 

Web 搜索 的 扩展 包括 结构 化 文本 检索 和 多 媒体 检索 ， 这 两 个 是 与 Web 日 益 相 关 的 主要 
领域 ， 另 外 还 包括 企业 搜索 。 第 13 章 讨论 结构 化 文本 检索 ， 这 是 全 新 的 章节 ， 反 映 了 自 本 
书 第 1 版 出 版 以 来 该 领域 的 迅速 发 展 。 其 中 包括 早期 的 文本 检索 模型 ，XML 的 索引 和 排序 
模型 ，XML 检索 的 评价 方法 和 XML 查询 语言 。 第 14 章 的 多 媒体 信息 检索 也 是 全 新 的 内 
容 ， 从 信息 检索 视角 出 发 ， 从 自 顶 向 下 的 角度 讨论 多 媒体 检索 。 涵 盖 的 内 容 包 括 基于 内 容 的 
图 像 检 索 、 音 频 和 音乐 检索 ， 以 及 视频 检索 。 将 基于 内 容 的 图 像 检 索 、 音 频 、 音 乐 和 视频 检 
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索 组 合成 一 个 单一 的 搜索 机 制 需要 融合 模型 ， 我 们 也 会 对 此 进行 讨论 。 最 后 介绍 MPEG 标 
准 。 第 15 章 讨 论 在 机 构 和 企业 内 部 检索 信息 的 企业 搜索 系统 ， 包 括 它们 和 Web 搜索 系统 的 
区 别 ， 以 及 在 设计 和 实现 方面 的 挑战 。 . 

本 书 的 最 后 两 章 包 括 图 书馆 系统 和 数字 图 书馆 。 第 16 章 讨 论 商业 文档 数据 库 、 集 成 图 
书馆 系统 (Integrated Library System, ILS) 和 联机 公共 检索 目录 。 商 业 文档 数据 库 仍 是 当 
今 最 大 的 信息 检索 系统 。 例 如 LEXISNEXIS 有 一 个 由 超过 十 亿 的 文档 组 成 的 数据 库 ， 每 年 
提供 数 百 万 次 查询 。 第 17 章 已 全 面 改 写 ， 提 供 对 数字 图 书馆 最 新 技术 和 趋势 的 详尽 描述 。 
首先 是 历史 概述 ， 随 后 讨论 基本 概念 、 社 会 和 经 济 问 题 ， 以 及 7 个 独特 的 数字 图 书馆 系统 。 
最 后 ， 我 们 还 讨论 了 数字 图 书馆 中 的 重要 个 案 ， 例 如 学 位 论文 网 络 数字 图 书馆 (networked 
digital library of theses and dissertations) 、 国 家 科学 数字 图 书馆 (national science digital li- 
brary) 和 ETANA 考古 数字 图 书馆 CETANA archaeological digital library), 

本 书 还 包括 两 个 附录 。 附 录 A 评论 27 个 开源 搜索 系统 ， 包 括 HtDig, Indri, Lucene, 
MG4J]、Omega、Qmnifind、SwishE、Swish 十 十 、Terrier 和 Zettair, Pts A 对 这 些 搜索 系 
统 从 索引 构建 时 间 、 查 询 处 理性 能 和 存储 需求 等 方面 进行 比较 分 析 。 附 录 BAA R 
献 的 所 有 作者 的 简介 。 最 后 是 全 书 所 使 用 的 1800 多 篇 参考 文献 。 

虽然 本 书 第 2 版 的 大 部 分 资料 还 是 纯粹 的 教科 书 风格 ， 但 我 们 还 是 为 对 研究 有 兴趣 的 读 
者 增加 了 更 多 的 内 嵌 引 用 。 虽 然 我 们 试图 平衡 内 容 的 广度 和 深度 ， 但 由 于 我 们 自己 的 专长 和 
研究 兴趣 ， 有 一 些 题 目 论 述 得 更 详细 些 。 如 果 我 们 错过 了 一 些 主题 或 重要 的 细节 或 引用 ， 我 
们 在 此 提前 道歉 。 

从 经 典 的 信息 检索 到 Web， 从 信息 组 织 算法 到 现代 数字 图 书馆 ， 从 搜索 引擎 所 使 用 的 
索引 和 搜索 技术 到 结构 化 文本 搜索 、 多 媒体 搜索 等 需要 扩充 的 新 技术 ， 本 书 第 2 版 间 在 从 一 
个 广泛 而 深入 的 视角 论述 信息 检索 的 概念 和 技术 ， 这 些 技术 在 搜索 引擎 中 的 应 用 ， 以 及 对 相 
关 领 域 (如 信息 科学 、 多 媒体 、 数 据 库 和 数字 图 书馆 ) 知识 的 影响 。 


1.6 本 书 的 教学 资源 网 站 

本 书 的 网 站 是 http://www. mir2ed. org， 其 中 包含 全 书 所 有 章节 的 幻灯 片 ， 可 以 作为 教 
学 资源 使 用 。 除 幻灯 片 之 外 ， 也 包括 了 词汇 表 、 练 习题 和 对 面向 不 同 听 众 的 不 同 课 程 的 详细 
教学 建议 ， 例 如 ， 

。 信息 检索 ， 计 算 机 科学 专业 ， 本 科 生 水 平 ; 

。 高 级 信息 检索 ， 计 算 机 科学 专业 ， 研 究 生 水 平 ; 

。 多 媒体 检索 ， 计 算 机 科学 专业 ， 本 科 生 水 平 ; 

。 信息 检索 ， 信 息 系 统 专业 ， 本 科 生 水 平 ; 

。 信息 检索 ， 图 书馆 学 专业 ， 本 科 生 水 平 ; 

。 Web 检索 ， 通 识 教 育 ， 本 科 或 研究 生 水 平 ; 

。 数字 图 书馆 ， 通 识 教育 ， 本 科 或 研究 生 水 平 。 

此 外 ， 网 站 提供 一 个 参考 文档 集 供 实 验 之 用 ,包含 1239 篇 来 自 Cystic Fibrosis 参考 集 
的 文档 ，100 个 信息 需求 和 详尽 的 相关 性 评价 数据 [1454]。 而 且 ， 网 站 包括 连接 不 同 大 学 
的 信息 检索 课程 、 研 究 组 、 出 版 机 构 以 及 与 信息 检索 及 本 书 相关 的 其 他 资源 的 链接 。 

最 后 ， 本 书 网 站 还 将 公开 发 布 与 本 书 相 关 的 重要 新 成 果 和 补充 信息 ， 以 及 勘误 表 .。 


1.7 文献 讨论 
现在 市 面 上 已 经 有 许多 关于 信息 检索 的 其 他 书籍 ， 由 于 目前 对 该 主题 的 广泛 兴趣 ， 最 近 
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也 出 现 了 一 些 新 书 。 下 面 我 们 将 本 书 与 这 些 之 前 出 版 的 书 进行 简单 的 比较 。 

信息 检索 领域 的 经 典 参 考 书 是 van Rijsbergen 的 《Information Retrieval) [1624] (网 上 
可 以 找到 )， 以 及 Salton 和 McGill 的 《Introduction to Modern Information Retrieval》 
L1414]。 本 书 对 于 数据 和 信息 检索 的 区 别 借 鉴 了 前 者 ， 对 于 信息 检索 过 程 的 定义 则 受到 了 后 
者 的 影响 。 然 而 ，25 年 过 去 了 ， 这 两 本 书 现 已 过 时 ， 不 能 涵盖 信息 检索 的 新 进展 。 

其 他 三 本 众所周知 的 信息 检索 著作 是 Frakes 和 Baeza-Yates 编辑 的 《Information Re- 
trieval; Data Structures & Algorithms》[582]，Witten、Moffat 和 Bell #26) «Managing 
Gigabytes-Compressing and Indexing Documents and Images) [1709], U Æ Lesk 的 《Prac- 
tical Digital Libraries; Books, Bytes, & Bucks) [1005], R= ABRAABEAAR. B 
一 本 偏重 信息 检索 的 数据 结构 和 算法 ， 有 助 于 迅速 实现 已 知 算法 的 原型 。 第 二 本 偏重 索引 和 
压缩 技术 ， 同 时 除了 文本 之 外 ， 也 覆盖 图 像 。 本 书 由 此 借鉴 了 文本 化 图 像 的 概念 。 第 三 本 偏 
重 数字 图 书馆 及 其 实际 问题 ， 例 如 历史 、 人 分布、 可 用 性 、 经 济 意义 和 知识 产权 。 关 于 经 典 信 
息 检 索 较 新 的 著作 包括 Hersh 的 [749], Chowdhury 的 《Introduction to Modern Informa- 
tion Retrieval》 第 3 版 L382]。 这 两 本 著作 的 视角 都 比 本 书 窗 。Meadow、Boyce、Kraft 和 
Barry 的 《Text Information Retrieval Systems》 第 3 版 [1112] 着 重 介绍 信息 及 其 表示 。 
Allen 的 《Information Tasks: Toward a User-Centered Approach to Information Systems) 
[32] 是 关于 信息 系统 的 一 般 性 著作 ， 它 采用 以 用 户 为 中 心 ， 而 不 是 以 计算 机 为 中 心 的 视角 
阐述 检索 。 从 信息 搜寻 的 视角 ， 则 需要 提 及 Marchionini 的 《Information Seeking in Elec- 
tronic Environments》[1082]， 以 及 Tedd 和 Hartley 的 《Information Seeking in The Online 
Age: Principles and Practice) [977]. 

某 些 章节 有 补充 书籍 。 例 如 ， 许 多 书籍 讨论 信息 检索 和 超 文本 ， 包 括 Agosti 和 
Smeaton 编辑 的 《Information retrieval and hypertext) [20]。 多 媒体 检索 也 是 如 此 ， 例 如 
Steinmetz 和 Nahrstedt 的 《Multimedia-Computing，Communications and Applications 》 
[1534], LAR Alessi 和 Trollip 的 《Multimedia for learning: methods and development) 
[25], Hersh f§ «Information Retrieval-A Health and Biomedical Perspective) [749] 是 一 
本 有 趣 的 书 ， 从 健康 和 生物 医药 角度 讨论 信息 检索 。 虽 然 标题 中 没有 信息 检索 ， 但 Rosen- 
feld 和 Morville 的 《Information Architecture for the World Wide Web: Designing Large- 
Scale Web Sites) #§ 3 fig [1157] 介绍 了 Web 上 的 信息 架构 ， 是 本 书 第 11 章 的 有 益 补充 。 
Menasce 和 Almeida 的 《Capacity Planning for Web Performance: Metrics, Models, and 
Methods) [1118] 阐述 了 如 何 利用 排队 论 来 预测 Web 服务 器 的 行为 。Chakrabarti 的 《Min- 
ing the Web: Discovering Knowledge from Hypertext Data) [349] 介绍 了 Web 知识 挖掘 的 
方法 。 此 外 ， 还 有 许多 书籍 说 明 如 何 从 Web 发 现 信息 ， 如 人 和 何 使 用 搜索 引擎 。 

Sparck Jones 和 Willet 编辑 的 《Readings in Information Retrieval》[1510]， 与 其 说 是 
一 本 合 著 ， 不 如 说 是 论文 集 。 本 书 具 有 连贯 性 和 广泛 性 ， 是 更 合适 的 学 科教 材 。 不 过 ， 该 论 
文集 仍然 是 有 价值 的 研究 工具 书 。Grefenstette 编辑 的 《Cross-Language Information Re- 
trieval》 是 一 本 与 跨 语 言 信息 检索 有 关 的 论文 集 [674]。 读 者 如 对 这 个 特定 主题 感 兴趣 ， 那 
么 这 本 论文 集 就 是 本 书 很 好 的 补充 。 此 外 ，Maybury 编辑 的 《Intelligent Multimedia Infor- 
mation Retrieval》 是 一 本 偏重 智能 多 媒体 检索 的 论文 集 [1101]， 而 Strzalkowski 编辑 的 
«Natural Language Information Retrieval》 则 关注 自然 语言 信息 检索 [1538]。 为 了 纪念 Ka- 
ren Sparck Jones, Tait 编辑 的 《Charting a New Course: Natural Language Processing and 
Information Retrieval》 讨 论 自然 语言 处 理 与 信息 检索 的 关系 [1554]。 其 他 一 些 合 著 探 讨 了 
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信息 检索 和 不 确定 性 与 逻辑 的 关系 [444]、 语 言 模 型 [453]、 认 知 检索 [1515] 和 TREC 
评价 [C1654]. 

Korfhage 的 《Information Storage and Retrieval) [931] 覆盖 的 材料 比 本 书 少 很 多 ， 且 
不 够 具体 。 例 如 ， 该 书 没有 详细 讨论 数字 图 书馆 、Web、 多 媒体 ， 以 及 并 行 处 理 。 类 似 地 ， 
Kowalski 和 Maybury 的 《Information Storage and Retrieval Systems: Theory and Imple- 
mentation) # 2 hg 937], WA Shapiro AW) (Automated Information Retrieval: Theo- 
ry and Text-Only Methods) [1453] 都 没有 详细 介绍 这 些 内 容 ， 且 定位 也 不 同 。Grossman 
和 Frieder 的 《Iniormation Retrieval: Algorithms and Heuristics) [682] 没有 讨论 Web, 
数字 图 书馆 和 可 视 化 界面 。Berry 和 Browne ff «Understanding Search Engines-Mathemati- 
cal Modeling and Text Retrieval) [194] 是 一 本 在 搜索 引擎 语 境 下 讨论 经 典 信息 检索 的 著 
作 。 其 他 一 些 专著 则 分 别 偏重 于 信息 检索 的 数学 基础 [505]、 检 索 的 几何 解释 L1625]， 以 
及 标记 结构 在 信息 检索 中 的 智能 应 用 等 [942]. 

近期 Ingwersen 和 Jarvelin 关于 信息 搜寻 的 著作 《The Turn: Integration of Information 
Seeking and Retrieval in Context) [810] 力图 从 延伸 的 认 知 和 角度， 而 非 基于 Cranfield 范式 
的 实验 模型 ， 来 解释 信息 检索 。 这 直接 影响 了 系统 的 评价 方法 。 采 用 认 知 角度 阐述 信息 检 
索 ， 但 却 专注 于 搜索 引擎 的 另 一 本 专著 是 Belew 的 《Finding Out About: A Cognitive Per- 
spective on Search Engine Technology and the WWW》[170]。 最 近 的 一 本 探索 性 搜索 著作 
是 White 和 Roth 的 《Exploratory Search; Beyond the Query-Response Paradigm) [1686]. 

RR, Manning, Raghavan 和 Schutze 撰写 了 一 部 介绍 经 典 信 息 检 索 和 Web BRHF 
Æ (Introduction to Information Retrieval》[1081]， 该 书 的 视角 相当 连贯 而 优雅 ， 着 重 于 基 
本 概念 ， 因 此 没有 像 本 书 一 样 探 讨 搜索 界面 等 问题 ， 也 没有 详尽 介绍 各 种 信息 检索 模型 。 此 
外 ， 该 书 对 于 检索 质量 的 评价 和 Web 息 取 介绍 得 很 少 ， 并 且 没 有 介绍 结构 化 文本 检索 、 多 
媒体 检索 、 图 书馆 搜索 系统 和 数字 图 书馆 等 内 容 。 

Croft, Metzler 和 Strohman 的 《Search Engines-Information Retrieval in Practice) 是 
一 本 更 新 的 著作 [449]， 着 重 介绍 搜索 引擎 ， 可 作为 本 科 生 教 材 。 该 书 提供 的 材料 可 用 于 讲 
述 如 何 应 用 信息 检索 技术 搭建 搜索 引擎 的 介绍 性 课程 ， 因 此 其 覆盖 范围 比 本 书 罕 ， 且 没有 包 
含 搜索 界面 、 相 关 反 馈 、 查 询 扩展 、 多 媒体 和 图 书馆 等 材料 。 另 外 ， 对 于 建 模 、 检 索 评 价 、 
文本 分 类 和 结构 化 文本 检索 的 材料 也 不 如 本 书 详尽 深入 。 

最 后 ， 几 乎 和 本 书 同 时 出 版 的 是 Biittcher、Clarke M Cormack f§ «Information Retriev- 
al: Implementing and Evaluating Search Engines》[304]。 该 书 偏重 信息 检索 系统 的 实现 和 
评价 ， 内 容 包括 XML 检索 、 并 行 搜索 引擎 和 Web 搜索 。 

对 关注 研究 结果 的 读者 而 言 ， 讨 论 信 息 检 索 及 相关 主题 的 学 术 期 刊 主要 包括 : 

¢ Journal of the American Society of Information Sciences and Technology) (JAS- 

IST, Wiley and Sons) 

e «ACM Transactions on Information Systems) (TOIS) 

。 «Information Retrieval) (Kluwer) 

。 (Information Processing and Management) (IP&M, Elsevier) 

e «ACM Transactions on the Web) 

。 «IEEE Transactions on Knowledge and Data Engineering) (TKDE) 

e Information Systems) (Elsevier) 


e «Knowledge and Information Systems) (KAIS, Springer) 
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e «Data and Knowledge Engineering) (DKE, Springer) 
© «D-Lib Magazine) 


e International Journal on Digital Libraries) (Springer) 


与 信息 检索 最 相关 的 会 议 包括 : 

e ACM SIGIR International Conference on Information Retrieval (ACM SIGIR 信息 检 
索 国 际会 议 ) 

e ACM International Conference on Web Search and Data Mining (WSDM) (ACM 
Web 搜索 和 数据 挖掘 国际 会 议 ) 


。 World Wide Web Conference (WWW), search track 〈 万 维 网 会 议 搜索 分 会 ) 

。 ACM Conference on Information Knowledge and Management (CIKM) (ACM 信息 
与 知识 管理 会 议 ) 

。 European Conference on IR (ECIR) 〈 欧 洲 信 息 检索 会 议 ) 

e String Processing and Information Retrieval Symposium (SPIRE) 〈 国 际 字符 串 处 理 
和 信息 检索 会 议 ) 

。 Text REtrieval Conference (TREC) (文本 检索 会 议 ) 

。 INitiative for the Evaluation of XML retrieval (INEX) (INEX XML 检索 评测 ) 

e Cross Language Evaluation Forum (CLEF) 〈 跨 语言 评价 论坛 ) 

。 International Conference on Multimedia Retrieval (ICMR) (国际 多 媒体 检索 会 议 )， 
该 会 议 新 近 由 ACM MIR 和 CIVR 合并 而 成 

。 Joint ACM-IEEE Conference on Digital Libraries (JCDL) (ACM-IEEE 数字 图 书馆 

合 会 议 ) 
。 European Conference on Digital Libraries (ECDL) (欧洲 数字 图 书馆 会 议 》 


[21] 
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用 户 搜索 界面 





Marti Hearst 著 


2.1 介绍 


本 书 大 部 分 的 内 容 描 述 搜索 引擎 和 信息 检索 系统 的 算法 。 而 本 章 关注 的 是 搜索 系统 的 用 
户 和 搜索 系统 所 显示 的 视窗 : 用 户 搜索 界面 。 用 户 搜 索 界面 的 作用 是 帮助 用 户 理解 和 表达 他 
们 的 信息 需求 ， 并 帮助 用 户 制定 他 们 的 查询 ， 在 可 用 的 信息 源 中 进行 选择 ， 理 解 搜 索 结果 ， 
以 及 跟踪 他 们 的 搜索 进程 。 

本 书 的 第 1 版 很 少 提 到 有 关 如 何 建立 有 效 搜索 界面 的 问题 。 在 这 些 年 间 ， 人 们 开始 逐步 
认识 到 哪些 想法 是 有 效 的 ， 哪 些 是 无 效 的 。 本 章 简要 总 结 了 一 些 在 学 术 研 究 以 及 商业 系统 部 
署 方面 最 先进 的 搜索 界面 设计 方法 ， 讨 论 人 们 是 如 何 搜索 的 、 现 今 的 搜索 界面 、 搜 索 界 面 的 
可 视 化 以 及 对 用 户 搜索 界面 的 评价 。 


2.2 人 们 如 何 搜索 


搜索 任务 的 范围 可 以 从 相对 简单 的 〈 例 如 ， 查 找 有 争议 的 事实 或 者 查找 天 气 信息 ) BF 
富 而 复杂 的 《〈 例 如， 求职 和 规划 假期 )。 搜 索 界 面 应 该 支持 一 定 范围 内 的 任务 ， 同 时 也 要 考 
虑 到 人 们 希望 如 何 寻 找到 他 们 想 要 的 信息 。 本 节 总 结 了 与 在 线 信 息 搜 寻 过 程 相关 的 理论 模型 
和 经 验 观 察 。 


2.2.1 信息 查找 与 探索 式 搜索 


与 搜索 界面 交互 的 不 同方 式 取决 于 任务 的 类 型 、 搜 索 过 程 中 投入 的 时 间 和 精力 ， 以 及 信 
息 搜 寻 者 的 专业 知识 。Web 搜索 引擎 中 所 使 用 的 简单 的 交互 式 对 话 最 适合 寻找 问题 的 答案 、 
搜索 网 站 ， 或 者 作为 搜索 的 起 点 寻找 其 他 资源 。 但 是 ， 正 如 Marchionini [1085] 指出 的 那 
样 ， 搜索 引擎 “依次 接收 信息 ”的 界面 本 身 有 局 限 性 ， 在 许多 情况 下 正在 被 专业 搜索 引擎 所 
取代 如 对 于 旅游 和 健康 信息 的 搜索 ， 专 业 引 擎 能 够 提供 更 丰富 的 互动 模式 。 

Marchionini [1085] 给 出 了 信息 查找 (information lookup) 和 探索 式 搜索 (explorato- 
ry search) 的 区 别 。 信 息 查 找 任务 类 似 于 事实 检索 或 问题 回答 ， 只 需要 简短 而 离散 的 信息 即 
可 : 数字 、 日 期 、 名 称 或 文件 和 网 站 的 和 名称 。 标 准 的 Web 搜索 〈 以 及 标准 数据 库 管 理 系 统 
查询 ) 在 这 些 方面 可 以 做 得 很 好 。 

Marchionini 将 信息 搜寻 任务 中 的 探索 式 搜索 的 类 别 划分 为 学 习 和 调查 两 类 。 学 习 搜索 
需要 多 个 查询 响应 对 ， 并 需要 用 户 花 费时 间 扫 描 和 读 取 和 多 个 信息 项 ， 并 综合 这 些 内 容 来 形成 
新 的 理解 。 调 查 指 的 是 一 个 更 长 期 的 过 程 ， 意 指 “ 在 相对 较 长 的 一 段 时 间 内 进行 多 次 迭代 ， 
返回 的 结果 可 能 要 在 整合 进 个 人 和 专业 知识 库 之 前 ， 进 行 严格 的 评估 .”[1085] 调查 搜索 可 
能 被 用 做 辅助 计划 安排 、 发 现 知 识 鸿沟 ， 或 者 监视 一 个 持续 性 的 话题 。 有 些 种 类 的 调查 搜索 
关注 于 发 现 全 体 或 大 部 分 的 可 用 相关 信息 (高 召回 率 )， 比 如 诉讼 研究 或 学 术 研 究 等 。 

其 他 人 的 一 些 工作 支持 了 这 种 观点 ，O7?Day 和 Jeffries[1219] 在 研究 了 那些 反复 出 现 的 
深度 复杂 信息 需求 之 后 〈 他 们 主要 关注 于 商业 智能 领域 ) ， 发 现 信息 搜寻 过 程 是 由 一 系列 相 
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互 关联 但 又 不 完全 相同 的 搜索 所 组 成 的 。 他 们 还 发 现 ， 一 个 搜索 目标 的 结果 往往 会 引发 新 的 
目标 ， 从 而 引发 新 的 搜索 方向 ， 但 问题 的 背景 和 先前 的 搜索 会 从 搜索 的 前 一 个 阶段 延续 到 下 
一 阶段 。 他 们 还 发 现 ， 搜 索 所 带 来 的 主要 价值 体现 在 搜索 过 程 中 持续 的 学 习 和 所 获得 的 信 
息 ， 而 不 只 是 最 后 的 搜索 结果 。 

更 广泛 地 说 ， 信 息 搜寻 可 以 被 看 做 是 更 大 过 程 当中 的 一 部 分 ， 正 如 文献 [1272，1401， 
1400] 提 到 的 意义 建构 (sensemaking) 那样 。 意 义 建构 是 一 个 迭代 的 过 程 ， 它 从 一 个 大 的 
信息 集合 中 制订 出 一 套 概念 表示 方法 。Russell 等 人 [1401] 观察 到 ， 在 意义 建构 中 ， 主 要 
的 工作 都 致力 于 如 何 把 好 的 表示 方法 、 思 考 形式 ， 以 及 面临 的 问题 结合 起 来 。 他 们 描述 了 为 
给 定 的 任务 制定 和 明确 其 中 的 重要 概念 的 过 程 。 搜 索 只 是 这 一 过 程 中 的 一 个 部 分 ; 有 些 意义 
建构 过 程 可 能 自始至终 都 需要 搜索 的 参与 ， 而 男 一 些 则 是 先进 行 一 组 搜索 ， 然 后 再 进行 一 系 
列 的 分 析 和 综合 。 那 些 深层 的 分 析 任 务 需要 进行 意义 构建 ， 同 时 伴随 着 搜索 ， 例 如 法 律 发 现 
过 程 、 流 行 病 学 (疾病 跟踪 )、 通 过 研究 顾客 投诉 来 改善 服务 并 获取 商业 智能 等 。 


2.2.2 信息 搜寻 的 经 典 模型 与 动态 模型 


研究 人 员 已 经 构造 出 很 多 关于 人 们 如 何 搜索 的 理论 模型 。Sutcliffe 和 EnnisL1547] 提出 
的 信息 搜寻 过 程 的 经 典 模型 将 其 定义 为 由 4 个 主要 活动 所 构成 的 周期 性 过 程 : 

。 明确 问题 

。 表达 信息 需求 

。 构造 查询 

。 评价 结果 i 

信息 搜寻 过 程 的 标准 模型 包含 一 个 潜在 的 假设 ， 即 用 户 的 信息 需求 是 静态 的 ， 信 息 搜寻 
的 过 程 是 一 个 对 于 查询 项 进行 连续 提炼 的 过 程 ， 直 到 所 有 且 仅 有 那些 与 原始 信息 有 关 的 文档 
被 检索 出 来 为 止 。 最 近 的 模型 强调 了 搜索 过 程 的 动态 特性 ， 并 指出 用 户 在 搜索 的 同时 也 在 学 
习 ， 当 他 们 看 到 检索 结果 或 者 其 他 文档 代理 时 ， 其 信息 需求 会 进行 相应 的 调整 。 这 种 动态 过 
程 有 时 称 为 搜索 的 采摘 模型 (berry picking model) [157]. 

如 今 的 Web 搜索 引擎 的 快速 响应 时 间 ， 使 得 搜索 用 户 能 够 采用 一 个 较为 普遍 的 查询 来 
“ 试 水 ”， 在 看 到 返回 结果 后 ， 以 显示 的 文字 为 基础 ， 重 构 他 们 的 查询 方式 ， 试 图 更 “接近 ” 
所 需 的 目标 [158，755，1082]。 例 如 ， 一 个 复杂 的 查询 “一 个 1/2 英寸 的 燃气 烧烤 炉 软 管 
连接 器 ， 用 于 3/8 英寸 的 家 用 插座 ”， 这 个 查询 很 可 能 是 失败 的 ， 典 型 的 搜索 用 户 会 选择 一 
个 更 为 普遍 的 查询 ， 如 “燃气 炉 软 管 连接 器 ”， 甚 至 “燃气 软 管 ?， 查 看 搜索 引擎 的 返回 结 
果 ， 然 后 重 构 查 询 ， 或 者 访问 相应 的 网 站 ， 在 其 中 浏览 网 页 ， 寻 找 所 需要 的 产品 。 

这 样 的 做 法 在 采摘 方法 中 是 常见 的 策略 ， 有 时 也 称 为 定向 (orienteering) [1219, 1569]. 
进行 定向 信息 搜寻 的 用 户 会 给 出 一 个 快速 、 不 精确 的 查询 ， 希 望 近似 地 得 到 信息 空间 的 一 部 
分 内 容 ， 然 后 再 进行 一 系列 的 本 地 导航 操作 ， 从 而 获得 更 贴近 用 户 兴 趣 的 信息 [158， 
1082]。 可 用 性 研究 和 Web 搜索 日 志 表 明 这 种 方法 是 常见 的 。 用 户 很 可 能 会 重 构 他 们 的 查 
询 ， 一 份 对 搜索 日 志 的 分 析 说 明 52% 的 用 户 重 构 了 查询 [820]. 

有 些 信息 搜寻 模型 关注 于 搜索 过 程 中 使 用 的 策略 ， 以 及 用 户 在 下 一 个 步骤 如 何 做 出 选 
择 。 在 某 些 情况 下 ， 这 些 模型 是 为 了 反映 专业 搜索 用 户 自觉 的 规划 行为 。 在 其 他 情况 下 ， 这 
些 模型 是 为 了 捕捉 缺少 计划 性 的 一 般 搜 索 用 户 的 潜在 反应 。BatesL156] 建议 ， 搜 索 用 户 的 
行为 可 以 被 搜索 策略 所 刻画 ， 搜 索 策 略 反 过 来 由 搜索 战术 (tactic) 的 序列 所 组 成 。Bates 
[156] 也 讨论 了 监测 当前 搜索 进度 、 衡 量 延 续 当 前 策略 及 改变 策略 的 成 本 和 收益 的 重要 性 。 
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Russell 等 人 [1401] 也 关注 于 监测 搜索 策略 的 进度 ， 并 以 成 本 结构 分 析 或 者 收益 递减 分 析 
作为 整个 过 程 的 目标 或 是 子 目标 。 这 种 成 本 结构 分 析 方 法 ， 后 来 被 Pirolli 和 Card 扩展 为 信 
息 搜 寻 理 论 (information foraging theory) [1271，1269]， 使 用 进化 生物 学 立场 的 理论 框 
架 ， 对 人 们 在 信息 结构 内 的 导航 策略 进行 了 建 模 与 预测 。 


2.2.3 导航 与 搜索 


并 非 所 有 的 搜索 都 开始 于 在 搜索 框 中 输入 关键 词 查询 。 许 多 网 站 和 一 些 搜索 引擎 允许 用 
户 通 过 仔细 阅读 某 种 信息 结构 Cinformation structure) 来 选择 搜索 的 起 点 。 导 航 (naviga- 
tion) 和 浏览 (browsing) 这 两 个 词 在 这 里 可 以 交换 使 用 ， 它 们 表示 相同 的 含义 一 一 搜索 用 
户 通 过 一 系列 浏览 和 选择 操作 ， 对 信息 结构 进行 查看 ， 并 能 够 在 可 用 信息 的 多 个 视图 当中 进 
行 切换 。 当 信息 结构 〈 如 在 一 个 网 站 上 的 超 链接 ) 非常 符合 用 户 的 信息 需求 时 ， 用 户 往往 更 
喜欢 浏览 而 不 是 关键 词 搜索 。Hearst 等 人 的 研究 [737] 发 现 ， 在 多 次 使 用 了 精心 设计 的 分 
面 分 类 系统 后 ， 自 我 描述 的 搜索 用 户 往往 会 逐渐 转变 为 通过 浏览 获取 信息 。 

浏览 往往 是 首选 ， 因 为 识别 (recognize) 出 一 部 分 信息 要 比 召 回 〈recall) 或 记 住 它 更 
为 容易 。 但 是 ， 如 果 花 费 了 过 长 的 时 间 来 寻找 感 兴趣 的 标签 ， 或 者 找 不 到 所 需要 的 信息 ， 那 
么 浏览 链接 所 获得 的 收益 就 会 递减 。 也 就 是 说 ， 浏 览 只 有 在 合适 的 链接 时 可 用 ， 并 对 潜在 信 
息 具 有 有 意义 的 提示 内 容 时 (有 时 称 为 信息 线索 [1269]) 才能 够 有 良好 的 效果 。 

使 用 合适 的 导航 结构 ， 某 个 交互 界面 可 能 需要 数 次 点 击 来 引领 搜索 用 户 寻 找 他 们 的 目 
标 ， 但 这 并 不 一 定 是 坏事 。Spool [1523] FR, 一般 来 说 ， 搜 索 用 户 对 于 跟踪 多 个 链接 并 
不 十 分 反感 ， 不 过 他 们 反感 于 跟踪 那些 与 他 们 的 目标 无 关 的 链接 。 因 此 ， 只 要 搜索 用 户 在 搜 
寻 目 标 信息 的 过 程 中 ， 没 有 丢失 信息 的 “线索 "， 交 互 界面 就 算 表 现 良 好 。Spool 讨论 了 一 
个 用 户 要 寻找 某 个 特定 的 激光 打印 机 软件 驱动 程序 的 例子 。 假 设 用 户 首先 点 击 “ 打 印 机 ”， 
然后 是 “激光 打印 机 ”， 然 后 按 如 下 的 链接 顺序 : 

SBMA A 

惠普 激光 打印 机 型 号 9750 

惠普 激光 打印 机 型 号 9750 的 软件 

惠普 激光 打印 机 型 号 9750 的 软件 的 驱动 程序 

惠普 激光 打印 机 型 号 9750 在 Win98 操作 系统 下 的 软件 驱动 程序 

这 样 的 交互 是 可 以 接受 的 ， 因 为 每 次 细 化 对 于 当前 的 任务 都 是 有 道理 的 ， 没 有 一 个 地 方 
需要 后 退 来 尝试 另 一 种 选择 ， 即 搜索 踪迹 永远 不 会 变 “ 冷 ”( 即 偏离 用 户 需求 ) 。 但 如 果 在 中 
途 某 个 时 候 ， 搜 索 用 户 通过 点 击 没 有 看 到 更 接近 目标 的 链接 ， 那 么 这 样 的 经 验 就 会 非常 邻 人 
钥 丧 ， 而 交互 界面 从 可 用 性 的 角度 来 说 就 是 失败 的 。 


2.2.4 对 搜索 过 程 的 观察 


人 们 对 于 搜索 过 程 的 研究 已 经 有 很 多 了 ， 获 得 的 成 果 可 以 帮助 指导 搜索 界面 的 设计 。 这 
些 研究 提 到 的 一 个 共同 的 观察 是 用 户 经 常会 微调 他 们 的 查询 ， 因 为 这 会 比 第 一 次 就 试图 给 定 
准确 的 查询 要 容易 。 另 一 个 原因 是 ， 搜 索 用 户 经 常 搜索 他 们 先前 已 访问 过 的 信息 [853， 
1130], 而 在 看 到 以 前 搜索 过 的 材料 之 后 ， 用 户 的 搜索 策略 也 会 相应 地 有 所 不 同 [150， 
853]。 研 究 人 员 已 经 开发 出 了 这 样 的 搜索 界面 ， 其 中 特别 考虑 了 搜索 用 户 重新 访问 信息 的 可 
能 性 [466，518]， 同 时 支持 查询 历史 和 对 以 前 访问 过 的 信息 条 目 进行 重新 访问 。 

研究 表明 ， 人 们 难以 确定 文档 是 否 与 主题 相关 [451，1402，1687]， 而 人 们 对 一 个 主题 
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了 解 得 越 少 ， 就 越 难 判断 搜索 结果 是 否 与 主题 相关 [1516，1620]。 对 于 Web 搜索 引擎 ， 搜 
索 用 户 往 往 只 关注 排名 靠 前 的 搜索 结果 ， 而 偏颇 地 认为 排名 第 一 或 第 二 的 文档 要 好 于 那些 排 
名 较 低 的 文档 L663, 844]. 

研究 还 表明 ， 人 们 很 难 估计 在 搜索 结果 中 有 和 多少 是 相关 的 ， 他 们 对 一 个 主题 越 不 了 解 ， 
也 就 越 有 可 能 自信 地 认为 相关 信息 都 已 经 访问 过 了 [L1551]。 此 外 ， 人 们 往往 在 找到 几 个 结 
果 后 就 终止 搜索 过 程 ， 即 使 文档 集中 可 能 还 会 有 更 好 的 结果 [1547]. 

有 些 搜索 可 用 性 的 研究 评估 了 搜索 过 程 本 身 的 影响 ， 并 对 专家 和 新 手 进行 了 对 比 ， 虽 然 
这 种 划分 形式 还 没有 达成 共识 的 分 类 标准 [81]。 研 究 指 出 ， 专 家 会 使 用 与 新 手 不 同 的 搜索 
策略 [771，990，1687]， 但 也 许 更 说 明 问 题 的 是 ， 其 他 研究 发 现 了 搜索 知识 和 领域 经 验 之 
间 的 交互 效应 [771，832]。 在 一 项 研究 中 ， 能 够 找到 高 质量 文档 的 杰出 分 析 师 的 总 体 特点 
是 分 析 的 持续 性 ， 那 些 阅 读 更 多 文档 、 花 费 更 多 时 间 的 人 比 其 他 人 完成 得 更 好 [1247]。 在 
另 一 项 研究 中 ， 搜 索 专 家 比 新 手 更 耐心 ， 并 有 积极 的 态度 ， 这 往往 会 带 来 更 好 的 搜索 结果 
[1551]. 


2.3 现今 的 搜索 界面 


典型 搜索 会 话 的 核心 过 程 是 由 查询 描述 、 搜 索 结 果 检 查 和 查询 重 构 组 成 的 。 随 着 搜索 过 
程 的 进行 ， 搜 索 用 户 会 更 加 了 解 他 们 想 要 的 主题 ， 以 及 可 用 的 信息 来 源 。 

本 节 将 要 介绍 几 种 用 户 界面 的 组 件 ， 它 们 已 经 成 为 了 搜索 界面 中 的 标准 ， 并 表现 出 了 很 
高 的 可 用 性 。 在 描述 这 些 组 件 的 同时 ， 我 们 也 将 介绍 它们 所 支持 的 设计 特点 。 在 理想 的 情况 
下 ， 这 些 组 件 被 集成 在 一 起 ， 以 支持 搜索 进程 的 不 同 部 分 ， 但 分 开 讨 论 会 更 有 助 于 我 们 对 它 
们 的 了 解 。 


2.3.1 启动 搜寻 


信息 搜寻 的 过 程 是 如 何 开始 的 ? 在 今天 ， 网 络 已 经 在 很 大 程度 上 取代 了 传统 的 物理 信息 
源 ， 如 电话 敌 和 百科 全 书 等 。 对 于 网 上 信息 系统 的 用 户 ， 开 始 搜索 会 话 的 最 常用 的 方法 是 访 
问 Web 浏览 器 ， 并 使 用 Web 搜索 引擎 。 

另 一 种 开始 搜索 的 方法 ， 是 从 以 前 访问 过 的 网 站 收藏 中 选择 一 个 网 站 ， 这 些 收藏 通常 存 
储 在 浏览 器 中 的 书签 中 。 这 种 方法 曾经 被 大 量 地 使 用 ， 然 而 随 着 搜索 引擎 服务 变 得 更 快捷 也 
更 准确 ， 这 种 方法 就 不 再 那么 流行 了 [1569]j。 在 其 他 一 些 书签 系统 中 ， 用 户 将 偏爱 的 网 站 
链接 存储 在 一 个 网 站 上 〈 因 此 从 任何 连接 的 计算 机 都 可 以 访问 )， 其 中 还 可 以 看 到 其 他 人 都 
选择 保存 了 什么 网 址 ， 这 种 书签 系统 已 经 在 一 小 部 分 用 户 中 深 受 欢 谭 。 这些 网 站 《deli- 
cious. com 和 furl. net， 即 现在 的 diigo. com， 就 是 这 方面 的 例子 ) 允许 用 户 设 定 内 容 的 标签 
(label 或 tag)， 按 主题 搜索 或 浏览 ， 以 及 按 网 站 标题 进行 文本 搜索 。 

网 站 目录 曾经 也 是 一 个 常见 的 出 发 点 。 在 较 早 的 时 候 ，Yahoo. com 的 目录 在 当时 是 最 
流行 的 导航 起 点 ， 但 现在 网 络 目录 已 基本 上 被 搜索 引擎 所 取代 ， 一 方面 因为 网 络 规模 变 得 太 
大 ， 没 办 法 手动 构造 目录 ， 另 一 方面 也 因为 Web 搜索 的 精度 不 断 提 高 [1267]。 不 过 ， 有 一 
些 学 者 认为 ， 搜 索 用 户 应 该 对 信息 的 来 源 有 更 多 的 认识 ， 并 认为 在 搜索 结果 列表 中 ， 这 些 信 
息 应 更 加 突出 地 显示 [1355]。 如 果 想 了 解 更 多 关于 网 站 目录 的 信息 ， 请 见 11. 8. 2 节 。 


2.3.2 查询 描述 
一 且 选 定 搜索 起 点 ， 用 户 表达 自己 信息 需求 的 主要 方法 就 是 在 搜索 框 中 输入 一 些 词语 或 
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者 从 目录 以 及 其 他 信息 组 织 中 选择 链接 。 对 于 Web 搜索 引擎 来 说 ， 查 询 是 通过 文本 形式 指 
定 的 。 如 今 这 通常 是 通过 在 键盘 上 输入 文字 的 方式 来 实现 的 ， 但 在 未 来 ， 伴 随 着 我 们 逐渐 开 
始 以 移动 设备 作为 输入 媒体 ， 通 过 语音 命令 进行 查询 的 方式 有 可 能 会 越 来 越 普遍 。 

在 如 今 的 Web 查询 中 ,输入 的 文字 通常 很 短 ， 一 般 由 1 一 3 个 词语 组 成 (820. 819]. 
多 词 查询 往往 视 为 一 个 短语 ， 但 查询 也 可 能 是 由 多 个 主题 所 组 成 的 。 短 查询 反映 了 标准 的 使 
用 场景 ， 用 户 查看 搜索 引擎 返回 的 结果 。 如 果 结 果 是 不 相关 的 ， 用 户 会 重 构 他 们 的 查询 ， 如 果 
结果 是 令 人 满意 的 ， 用 户 就 会 定位 到 最 相关 的 网 站 ， 在 该 网 站 上 继续 微调 查询 [158，539， 
755，1082]。 这 种 先 用 普遍 的 查询 来 寻找 信息 空间 中 有 用 的 部 分 ， 然 后 跟随 相关 网 站 超 链接 的 
搜索 行为 ， 是 Web 搜索 当中 应 用 定向 策略 的 一 个 示范 [1219，1569]。 有 证 据 表 明 ， 在 许多 情 
况 下 ， 用 户 虽然 倾向 于 更 详尽 地 表示 他 们 的 信息 需求 ， 但 过 去 的 搜索 引擎 使 用 经 验 告 诉 他 们 ， 
这 种 方法 不 能 很 好 地 工作 ， 而 关键 词 查 询 与 定向 相 结 合 会 表现 得 更 好 [201，1288] 。 

在 Web 搜索 出 现 之 前 ， 商 业 文 本 搜索 系统 通常 支持 布尔 运算 和 基于 命令 的 语法 ， 而 实 
际 上 并 没有 支持 关键 词 查询 。 但 是 ， 布 尔 运 算 符 和 命令 行 语 法 已 经 被 一 再 地 证 实 难以 让 大 多 
数 用 户 理 解 ， 试图 使 用 它们 的 人 经 常会 犯 一 些 错误 [499， 672, 699, 755, 763]. 

虽然 大 多 数 Web 搜索 引擎 支持 一 些 布尔 形式 的 语法 ， 但 最 近 一 项 针对 Web 查询 日 志 的 
研究 表明 ， 在 超过 150 万 的 查询 中 ， 仅 发 现 2. 1% 含 有 布尔 运算 ，7. 6 上 含有 其 他 查询 语法 ， 
主要 是 双 引 号 短语 【819]。 另 一 项 研究 考察 了 近 60 万 用 户 在 2006 年 期 间 ， 总 计时 间 超 过 
13 周 、 数 百 万 的 交互 日 志 。 他 们 发 现 ，1. 1% 的 查询 包含 4 个 主要 的 Web 运算 符 〈 双 引号 、 
十 、 一 和 site:) 中 至 少 一 个 运算 符 ， 只 有 8.7% 的 用 户 始 终 使 用 运算 符 [1685]。7.2.1 节 
将 介绍 更 多 关于 Web 查询 的 内 容 。 

Web 排序 已 经 经 历 了 3 个 主要 阶段 。 第 一 阶段 大 约 从 1994 一 2000 年 ， 大 多 数 的 搜索 引 
擎 使 用 统计 排序 ， 但 是 没有 使 用 网 页 内 查询 项 的 位置) 邻近 信息 和 网 页 相对 重要 性 的 信 
息 。 那 时 ， 整 个 Web 的 规模 还 比较 小 ,不 太 可 能 有 相关 的 信息 源 为 那些 较为 复杂 的 查询 提 
供 答案 。 并 且 有 可 能 会 检索 出 那些 缺失 查询 中 关键 词 的 网 页 ， 许 多 用 户 无 法 理解 这 样 的 行为 
方式 。( 例 如 ，AltaVista 引入 了 强制 运算 符 ， 用 加 号 表示 ， 即 允许 用 户 可 以 在 一 个 词 前 增 浴 
一 个 加 号 ， 表 示 这 个 词 必须 出 现在 查询 中 ， 但 只 有 那些 极 富 经 验 的 用 户 才 会 利用 这 种 查询 运 
算 符 .) 

在 1997 年 左右 ,谷歌 转向 了 只 采用 合 取 查询 的 方式 ， 这 意味 着 只 有 所 有 查询 项 都 出 现 
在 网 页 中 时 ， 网 页 才 会 被 检索 到 。 他 们 还 增加 了 查询 项 的 邻近 信息 和 网 页 的 重要 性 打分 ( 见 
11. 5. 2 节 的 PageRank 算法 )， 这 大 大 提高 了 许多 查询 的 相关 性 ， 特 别 是 导航 查询 ， 比 如 ， 
以 “丰田 ”(Toyota) 作为 查询 ， 会 检索 到 丰田 公司 的 主页 ， 而 不 是 那些 “丰田 ”出 现 次 数 
最 多 的 页 面 。 其 他 的 Web 搜索 引擎 也 紧 跟 着 这 种 趋势 ， 合 取 排 序 成 了 常态 。 

随 着 网 络 上 可 用 信息 数量 的 增加 ， 老 练 的 搜索 用 户 发 现 ， 把 较 长 的 查询 看 做 短语 往往 会 
找到 高 度 相 关 的 结果 。 过 去 ， 如 果 搜 索 用 户 有 复杂 的 信息 需求 ， 并 试图 充分 地 表达 给 Web 
搜索 引擎 时 ， 这 样 的 尝试 往往 都 会 失败 。 例 如 ， 如 果 一 个 搜索 用 户 想 知道 “我 在 哪里 可 以 找 
到 1985 年 的 卡罗拉 的 轮 载 ?” 以 这 种 形式 编写 的 查询 由 于 合 取 约 柬 ， 将 无 法 返回 任何 结果 。 
ME, Web 搜索 引擎 已 经 变 得 越 来 越 精细 ， 能 够 去 掉 一 些 无 意义 的 项 ， 而 只 匹配 重要 的 查 
询 项 ， 在 排名 较 高 的 文档 中 ， 这 些 查询 项 彼此 相 邻 。 另 外 ， 可 以 使 用 其 他 在 Web 搜索 中 已 
经 证 明 有 效 的 方法 进行 排序 。 有 关 查 询 语 言 的 更 多 细节 见 7. 1 节 。 


2.3.3 查询 描述 界面 
文本 查询 的 标准 界面 是 一 个 搜索 框 ， 用 户 输入 查询 时 ， 通 过 按键 盘 上 的 回 车 键 或 点 击 与 
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表单 相关 的 按钮 进行 查询 。 研 究 表明 ， 查 询 长 度 与 输入 框 宽度 之 间 有 一 定 的 关系 ; 小 的 输入 
框 会 阻碍 长 查询 ， 而 宽 形式 的 输入 框 则 会 鼓励 长 查询 [171，585]。 

有 些 输入 框 被 分 为 多 个 组 件 ， 人 允许 用 户 更 自由 地 输入 查询 文本 ， 并 跟随 着 一 些 查 询 过 滤 的 
输入 框 。 例 如 ， 在 yelp. com 上 ， 用 户 在 第 一 个 输入 框 中 输入 一 个 普遍 的 查询 ， 通 过 在 第 二 个 
输入 框 中 输入 位 置信 息 ， 对 搜索 进行 改进 ( 见 图 2-1)。 表 单 允 许 选择 以 前 用 到 的 信息 ， 这 些 信 
息 有 时 是 结构 化 的 ， 并 允许 设置 为 未 来 使 用 的 参数 。 例 如 ，yelp. com 的 表单 会 显示 用 户 的 本 地 
位 置 〈 如 果 过 去 曾经 指定 过 ) 以 及 其 他 近期 指定 过 的 位 置 ， 并 可 以 选择 添加 额外 的 位 置 。 


Search for /e g toco, salon, Max Near (Adcress 


ss, Neighborhood. City State or Zip 
resturants fwashington dc a 


| My Saved Locations 









imi > 














Welcome AboutMe Write a Review Find Reviews invite Friends Messaging | Home :Primar 
eT. 


resturants Washington, DC |Recently Used Locations | 1 to 10 of 52 
Did you mean: restaurants | Orinda, C | 


| 
—._ Berkeley. CA 
CA ee m j 
ns M ii AEETI ES 


图 2-1 yelp. com 的 查询 表单 ， 显 示 了 对 结构 化 查询 以 及 存储 之 前 查询 信息 的 支持 
一 个 在 搜索 框 中 使 用 得 越 来 越 普遍 的 策略 是 ， 通 过 灰色 文字 来 暗示 什么 类 型 的 信息 应 该 
输入 到 搜索 框 中 。 人 例如， 在 zvents. com 搜索 中 ( 见 图 2-2) ， 第 一 个 搜索 框 上 标 有 “你 要 买 
什么 ??”， 而 第 二 个 框 标 有 “什么 时 候 〈 今 晚 、 本 周末 、…… )”。 当 用 户 将 光标 放 在 搜索 输入 
框 上 时 ， 灰 色 的 文字 消失 ， 用 户 可 以 输入 自己 的 查询 项 。 
an events me restaurants | venues | performer 








search be 


2-2 zvents.com 的 查询 表单 ， 表 单 中 的 灰色 文字 说 明 什 么 类 型 的 信息 可 以 被 输入 


这 个 例子 也 说 明了 现在 的 搜索 引擎 支持 专用 的 输入 方式 。 例 如 ， 网 站 zvents. com 会 识 
别 诸如 “明天 ”一 类 对 时 间 人 敏感 的 查询 词 ， 并 以 事先 设 定 好 的 方式 来 进行 处 理 。 它 还 能 够 更 
加 灵活 地 处 理 更 正式 的 日 期 格式 ， 因 而 搜索 “星期 三 ”(wed) 的 “喜剧 ”(comedy) HAA 
动 计算 最 近 的 星期 三 的 具体 日 期 。 这 是 一 个 很 好 的 例子 ， 说 明 我 们 应 该 通过 设计 界面 来 反映 
人 们 是 如 何 思 考 的 ， 而 不 是 要 求 用 户 遵 循 那 些 不 可 靠 旦 流 于 形式 的 标准 程序 来 思考 。( 这 种 
放宽 查询 描述 的 方法 ， 更 适用 于 那些 “ 非 正 式 的 ” (casual) 界面 ， 在 这 些 系统 当中 ， 日 期 
并 不 是 最 关键 的 要 素 。 非 正式 的 日 期 格式 在 填写 税 表 时 是 不 能 接受 的 ， 因 为 发 生 错误 的 代价 
太 大 了 。) 

一 个 已 经 显著 改善 了 查询 描述 的 创新 是 动态 生成 的 查询 建议 列表 ， 当 用 户 输 入 查询 时 ， 
表单 实时 显示 查询 建议 [1684]。 这 种 方法 也 称 为 自动 填充 (auto-complete)、 自 动 建议 
(auto-suggest) ， 或 动态 查询 建议 (dynamic query suggestion) 。 通 过 对 大 规模 的 日 志 进 行 研 
究 发 现 ， 用 户 在 大 约 1/3 的 时 间 里 ， 点 击 了 雅虎 搜索 助手 提供 的 动态 查询 建议 [61]。 这 一 
主题 将 在 11. 7. 2 节 介绍 Web 搜索 引擎 时 进行 详细 解释 。 

通常 显示 的 查询 建议 是 那些 前 缀 字符 与 之 前 输入 的 字符 匹配 的 词语 ， 但 在 某 些 情况 下 ， 
显示 的 是 只 有 中 间 字 符 匹 配 的 词语 。 如 果 用 户 输入 多 个 词 的 查询 ， 那 么 显示 的 查询 建议 可 能 
是 之 前 输入 内 容 的 同义词 ， 但 在 词法 上 并 不 匹配 。 举 例 来 说 ，Netflix. com 用 灰色 字体 显示 
可 能 需要 的 词 ， 然 后 通过 一 个 下 拉 列 表 框 显示 可 以 点 击 的 词语 。 
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在 动态 查询 建议 界面 中 ， 匹 配 的 显示 也 有 着 不 同 的 方式 。 有 些 界面 根据 类 别 信息 对 建议 
进行 着 色 。 在 大 多 数 情 况 下 ， 用 户 必 须 移动 鼠标 到 所 需 的 查询 建议 上 以 选择 它 并 用 来 填充 查 
询 框 。 在 某 些 情况 下 ， 查 询 可 以 立即 进行 ; 在 另 一 些 情况 下 ， 用 户 必 须 输 入 回 车 键 或 点 击 
“搜索 ”按钮 才能 进行 查询 。 

查询 建议 可 能 来 自 多 种 资源 。 在 某 些 情况 下 ， 列 表 是 根据 用 户 自己 的 查询 历史 获得 的 ， 
在 其 他 情况 下 ， 它 基于 其 他 用 户 的 热门 查询 。 这 个 列表 也 可 以 来 自 于 网 站 设计 人 员 认 为 重要 
的 一 组 元 数据 ， 例 如 在 药理 文献 搜索 时 显示 的 一 组 已 知 疾病 或 基因 的 名 字 〈 见 图 2-3)， 在 电 
子 商 务 网 站 搜索 时 显示 的 产品 列表 ， 或 者 在 电影 网 站 上 搜索 时 显示 的 热门 电影 列表 。 这 些 建 


议 也 可 以 来 自 网 站 内 部 的 所 有 文本 。 
NEXTEIO> lem 一 eh) 
[ compound> EMB (Emb) | 
gene) EMB (MGC71745, Gp70. AL022799, MGC21425) ee 


compound) EMB (Ethambutol) 
search> embr sé compound) EMB {Methylurethane) 
gene) Embi 
gene) Embi2 
| 一 一 1 compound» EMBBA (Embba) 
| experiments(0) lit tissue) Embryo 
raii compound) Embarin (Allopurinol) Zz 
compound> Embutox (Butoxone) relevance by 


E 2-3 按 类 型 分 组 的 动态 查询 建议 ， 源 自 NextBio. com 


查询 描述 的 另 一 个 形式 包括 从 一 些 信 息 显 示 中 进行 选择 ， 最 典型 的 是 在 超 链 接 或 保存 的 
书签 中 选择 。 在 某 些 情况 下 ， 选 择 一 个 链接 ， 除 了 结果 列表 ， 还 会 产生 更 多 的 链接 来 进行 下 
一 步 导 航 。 这 种 查询 描述 会 在 2. 3. 6 节 中 进行 详细 的 讨论 。 


2.3.4 检索 结果 显示 


当 显 示 搜 索 结 果 时 ， 或 者 是 显示 全 部 文档 ， 或 者 将 文档 的 一 些 有 代表 性 的 内 容 提 交 给 搜 
索 用 户 。 这 种 文档 代理 (surrogate) 指 的 是 文档 的 摘要 ， 这 是 一 个 成 功 的 搜索 界面 的 重要 
组 成 部 分 。 而 文档 代理 的 设计 和 检索 结果 显示 是 目前 研究 和 实验 比较 活跃 的 领域 。 

文档 代理 的 质量 极 大 地 影响 对 搜索 结果 列表 相关 性 的 感知 。 在 Web 搜索 中 ， 页 面 标题 

通常 与 URL 一 起 加 亮 显示 ， 有 时 也 会 与 其 他 元 数据 一 起 显示 。 在 对 信息 集合 进行 搜索 时 ， 
出 版 日 期 和 作者 等 元 数据 往往 会 显示 〈 但 这 类 元 数据 较 少 应 用 于 网 页 ) 。 文 本 摘要 〈summa- 
ry) (也 称 为 摘要 (abstract)、 提 取 (extract), WR (excerpt)， 或 片段 (snippet) 包含 了 
从 文档 中 提取 的 文本 ， 它 们 对 检索 结果 的 评估 是 至 关 重 要 的 。 

一 项 研究 评价 了 搜索 结果 中 的 哪个 属性 会 获得 更 多 的 点 击 ， 并 从 中 找到 了 许多 能 带 来 
正面 效果 的 因素 ， 包 括 更 长 的 文本 摘要 、 包 含 查询 关键 词 的 标题 、 标 题 组 合 、 包 含 作 为 
短语 匹配 的 查询 的 摘要 和 网 址 (URL)、 更 短 的 URL， 以 及 域名 中 包含 查询 项 的 URL 
[390]. 

目前 ， 标 准 的 结果 显示 是 一 个 文本 摘要 的 垂直 列表 ， 有 时 也 称 为 搜索 引擎 结果 页 
(Search Engine Results Page，SERP) 。 在 某 些 情况 下 ， 摘 要 是 对 包含 查询 项 的 文档 的 摘录 。 
在 其 他 情况 下 ， 通 过 混合 (blended) 结果 (也 称 为 全 能 搜索 ，universal search) 技术 ， 有 
些 特殊 的 元 数据 与 标准 的 文本 结果 一 起 显示 给 用 户 。 例 如 ， 以 “彩虹 ”作为 查询 ， 返 回 的 搜 
索 结果 可 能 包含 一 行 彩 虹 的 示例 图 像 ( 见 图 2-4) ， 或 者 查询 运动 队 的 名 称 可 能 检索 出 最 近 的 
比赛 得 分 和 一 个 购买 门票 或 浏览 比赛 直播 时 间 表 的 链接 〈 见 图 2-5)。Nielsen [1206] 指出 ， 
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在 某 些 情况 下 ， 搜 索 结 果 列 表 可 以 直接 满足 信息 需求 ， 从 而 使 搜索 引擎 变 成 “答案 引擎 ”。 


Web | tmages | Yideo | Locai | Shopping | more ~ 
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Rainbow - Wikipedia, the free encyclopedia 
Visibility | Scientific, Variations Scientific 


A rainbow is an optical and meteorological phenomenon that 

causes a spectrum of light to appear in the sky when the Sun shines 

onto droplets of moisture in the Earth's atmosphere. They take the 

form of a muiticoloured arc, 

en.wikipedia.orgwiki/Rainbow - 12 1s - Cached 

Rainbow (band) - Wikipedia, the free encyclopedia 
History | Member history | Discography (studio albums} | Other reading 
Rainbow were an English hard rock and heavy metal band formed by former Deep 
Purple guitarist Ritchie Blackmore in 1975. In addition to Blackmore, the band 




















图 2-4 雅虎 搜索 中 对 于 查询 “彩虹 ”的 搜索 结果 页 面 。 结 果 从 上 到 下 分 别 包括 : 查询 改善 
建议 ， 彩 虹 图 片 的 链接 ， 关 于 彩虹 的 百科 文章 和 一 些 说 明 的 图 片 ， 以 及 名 为 “ 彩 
虹 ” 的 摇滚 乐团 的 百科 文章 


Web images Maps News Video Gmail morev 


Google =- ~ en) Sets 


“Web Video News Blogs images Results 1 - 10 of about 22,800,000 for rockets (definition). 








NBA.com - Houston Rockets 

Official site containing news, scores, audio and video files, player statistics, and 
schedules. 

www_nba convrockets/ - 7k - Cached - Similar pages 
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ROCKETS: 2008-09 ROCKETS SCHEDULE 

Rocket Power Dancers - Clutch the Bear - Red Rowdies - Fan Photos Launch Crew - 
Little Dippers . Recycle Item of the Month ... ROCKETS SCHEDULES & RESULTS ... 
www nba. com/rockets/schedule/ - 73k - Cached - Similar pages 


Rocket - Wil the free encyc ia 
A rocket or rocket vehicle is a missile, aircraft or other vehicle which obtains thrust by the 
reaction of the rocket to the ejection of fast moving fluid ... 

en wikipedia org/wiki/Rocket - 205k - Cached - Sin 


Video results for rockets 





lakers vs n 11/9/2008 How To Make a Mentos Cok: 
kobe bryant huge ... Rocket 
T 7 min 
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图 2-5 谷歌 搜索 引擎 对 于 查询 “火箭 ”的 搜索 结果 界面 。 根 据 查 询 词 的 不 同意 义 ， 显 示 了 
不 同 种 类 的 信息 。 第 一 个 是 篮球 队 主 页 的 链接 ， 以 及 一 些 该 网 站 内 部 的 “深度 链 
接 ”(deep links) 。 接 下 来 ， 是 与 球 队 有 关 的 其 他 链接 ， 关 于 火箭 的 百科 页 面 ， 以 及 
火箭 队 的 视频 链接 和 如 何 制造 火箭 的 链接 











[30] 


[ 31 | 
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对 排序 的 研究 发 现 ， 邻 近 性 信息 可 以 很 有 效 地 提高 搜索 的 精度 [391，733，1563]j。 可 
用 性 研究 建议 ， 将 查询 项 出 现在 文档 时 的 上 下 文 显 示 出 来 ， 可 以 有 助 于 用 户 评估 结果 的 相关 
PE [1593，1682]。 这 有 时 称 为 上 下 文 关键 字 (Keywords in Context，KWIC)、 查 询 偏 置 摘 
要 (query-biased summary)、 面 向 查询 的 摘要 (query-oriented summary)， 或 用 户主 导 摘 要 
Cuser-directed summary) 。 

查询 项 的 加 亮 显 示 Chighlighting) 可 以 在 视觉 上 改善 搜索 结果 列表 的 可 用 性 ， 这 个 观 
点 已 经 有 几 十 年 了 [974，1005，1063，1082]j。 加 亮 是 指 在 视觉 把 某 个 部 分 和 其 他 部 分 进行 
区 别 ， 可 以 通过 粗 体 文字 、 改 变 文 字 或 背景 的 颜色 、 改 变 文 字 的 大 小 ， 以 及 其 他 方法 来 实 
现 。 加 亮 显示 既 可 以 用 于 搜索 结果 中 的 文档 代理 ， 也 可 以 用 于 检索 出 的 文档 本 身 。 有 些 界面 
通过 可 视 化 的 方法 给 文档 中 加 亮 显示 的 部 分 做 一 个 概述 [160，305，661，766]。 

确定 哪些 文字 可 以 用 做 摘要 和 多 少 文字 应 当 显 示 ， 是 一 个 具有 挑战 性 的 问题 。 通 常 ， 最 
相关 的 文章 是 那些 包含 所 有 查询 项 ， 并 且 查 询 项 是 彼此 紧密 相连 的 ， 但 对 于 不 那么 匹配 的 结 
果 ， 在 显示 连续 的 句子 以 增加 结果 的 连贯 性 与 显示 包含 查询 项 的 句子 中 ， 要 进行 一 个 权衡 与 
取舍 。 有 些 研究 结果 表明 ， 完 整地 显示 整个 句子 比 将 句子 切 分 开 有 更 好 的 效果 [80，1380， 
1683]， 但 在 另 一 方面 ， 很 长 的 句子 通常 也 不 是 我 们 想 要 的 结果 。 

还 有 证 据 表 明 ， 在 搜索 结果 搞 要 中 显示 的 这 类 信息 应 根据 查询 意图 和 搜索 会 话 目 标的 不 
辣 而 相应 地 变化 。 有 些 研究 显示 ， 在 某 些 信息 需求 下 较 长 的 答案 会 比较 短 的 答案 表现 得 更 好 
[L861，1034，1237]。 而 当 搜 索 用 户 决定 直接 进入 到 一 个 知名 网 站 的 主页 时 ， 简 短 的 结果 列 
表 会 比 长 的 详细 信息 更 好 。 在 一 般 情 况 下 ， 用 户 对 已 知 项 进行 搜索 时 往往 倾向 于 可 以 指示 所 
需 信息 的 较 短 的 代理 。 主 页 搜索 本 质 上 是 对 地 址 的 搜索 ; 用 户 知 道 网 站 的 名 字 ， 希 望 找 到 它 
的 网 址 CURL)。 同 样 ， 能 够 简要 说 明 的 事实 性 信息 需求 可 以 被 简短 的 结果 满足 。 相 反 地 ， 
如 果 用 户 有 一 个 复杂 的 信息 需求 ， 更 深层 次 的 文档 摘要 可 以 带 来 更 好 的 搜索 体验 。 这 一 点 对 
于 那些 更 丰富 的 任务 来 说 也 是 正确 的 ， 如 建议 搜寻 或 获取 相似 的 主题 。 

其 他 种 类 的 文档 信息 可 以 有 效 地 显示 在 搜索 结果 页 面 中 。 图 25 和 图 2-7 显示 了 站 内 链接 
《sitelink) 和 深度 链接 (deep link) 的 应 用 ， 它 们 在 网 站 主页 的 下 方 显示 了 网 站 内 部 较 受 欢迎 的 网 
页 。 在 另 一 个 例子 中 ， 生 物 科学 文献 检索 研究 发 现 ， 大 多 数 参 与 者 强烈 主张 在 搜索 结果 的 旁边 显 
示 从 期 刊 文章 中 提取 的 图 片 [736]。 在 图 2-6 中 ， 对 BioText 系统 的 截图 显示 了 这 种 思想 ， 也 说 明 
了 加 亮 或 粗 体 显示 查询 项 的 作用 ， 以 及 用 户 可 以 或 多 或 少 看 到 查询 项 的 上 下 文 环 境 的 机 制 。 


2.3.5 查询 重 构 


在 指定 了 查询 和 产生 了 结果 之 后 ， 有 一 些 工 具 可 以 用 来 帮助 用 户 重 构 他 们 的 查询 ， 或 将 
信息 搜寻 过 程 引领 到 一 个 新 的 方向 。 对 搜索 引擎 日 志 的 分 析 表 明 ， 查 询 重 构 是 一 种 常见 的 活 
动 ; 一 项 研究 发 现 ， 在 一 次 会 话 期 间 ， 超 过 50%% 的 搜索 用 户 至少 进 行 了 一 次 查询 修改 ， 有 
接近 1/3 的 人 进行 了 3 次 或 更 多 次 查询 修改 [820]. 

在 最 重要 的 查询 重 构 技 术 中 ， 有 一 种 是 显示 与 查询 或 检 出 的 文档 相关 的 索引 项 。 其 中 的 
一 个 特殊 情况 是 拼写 校对 或 建议 ， 据 估计 ，10%% 一 15 光 的 查询 会 出 现 错 字 [461]。 在 Web 
搜索 出 现 之 前 ， 拼 写 建议 主要 是 基于 字典 的 [944]. Æ Web 搜索 出 现 后 ， 查 询 日 志 已 应 用 
于 开发 检测 和 纠正 拼写 错误 的 高 精度 算法 中 [461，1018]。 在 搜索 界面 中 ， 通 常 只 有 一 个 更 
改建 议 显示 ; 点 击 更 改建 议 就 可 以 重新 执行 查询 。 多 年 以 前 ,搜索 结果 中 会 显示 那些 据 推测 
不 正确 的 拼写 ， 今 天 一 些 搜索 引擎 已 经 可 以 交错 显示 原始 查询 的 结果 和 拼写 校对 后 的 结果 ， 
或 将 原始 查询 结果 与 拼写 校对 后 的 结果 分 别 显示 。 
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除了 拼写 建议 外 ， 搜 索 界 面 越 来 越 多 地 采用 相关 项 建议 技术 ， 通 常 称 为 查询 项 扩展 
(term expansion) 。 对 日 志 所 进行 的 研究 发 现 ， 如 果 能 提出 较 好 的 查询 建议 ， 那 么 在 Web 搜 
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索 中 它 会 是 一 个 频繁 使 用 的 功能 。 对 日 志 的 研究 发 现 ， 大 约 8%% 的 查询 都 是 由 查询 项 建议 产 [32] 


生 的 [819] (但 它 没有 显示 有 多 少 比 例 的 查询 会 显示 这 样 的 建议 )， 而 另 一 个 发 现 是 大 约 
6% 的 用 户 选择 点 击 查询 项 建议 [61]. 
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图 2-6 BioText 系统 的 搜索 结果 ， 其 中 显示 了 丰富 的 文档 代理 信息 ， 包 括 文 章 中 所 抽取 的 
图 片 、 加 亮 或 黑体 显示 的 查询 项 ， 以 及 扩展 或 缩短 文档 摘要 的 选项 ， 来自 http:// 


biosearch. berkeley. edu 


较 早 使 用 查询 项 扩展 或 建议 的 工作 建立 在 十 几 个 同义词 库 上 ， 通 常 是 在 显示 搜索 结果 前 
强迫 用 户 从 中 选择 [285，4921。 最 近 的 研究 表明 ， 提 供 较 少 的 建议 ， 只 需要 用 户 进 行 一 次 
点 击 ， 或 将 相关 的 查询 项 组 合 起 来 进行 一 次 点 击 选 择 ， 是 一 种 更 为 可 取 的 方法 [59，501， 
1681]。 图 2-4 和 图 2-7 显示 了 只 需 一 次 点 击 的 查询 项 扩展 的 例子 。 

有 些 查询 项 建议 是 基于 某 一 特定 用 户 的 整个 搜索 会 话 ， 然 而 有 的 则 是 基于 之 前 提出 相同 或 相 
似 查询 的 其 他 用 户 的 行为 。 一 种 策略 是 显示 其 他 用 户 提 供 的 类 似 查 询 ， 另 一 种 方法 是 从 之 前 提出 
相同 查询 的 用 户 所 点 击 的 文档 中 提取 查询 项 。 在 某 些 情况 下 ， 相 同 的 算法 被 用 做 实时 查询 自动 建议 。 

相关 反馈 是 另 一 种 方法 ， 其 目标 是 帮助 我 们 进行 查询 重 构 ， 将 在 第 5 章 详细 讨论 它 。 其 
主要 思想 是 让 用 户 指出 ， 对 于 查询 哪些 文档 是 相关 的 〈 也 可 以 是 不 相关 的 )。 在 另 一 些 搜索 
系统 中 ， 也 可 能 让 用 户 指出 从 文章 中 抽取 的 哪些 索引 项 是 相关 的 [918]。 系 统 通过 这 个 信 
息 ， 可 以 计算 出 一 个 新 的 查询 ， 并 使 用 某 种 算法 ， 显 示 一 个 新 的 检索 集合 [1402]. 

相关 反馈 已 被 证 明 在 非 交 互 式 或 人 工 设 置 情况 下 ， 都 可 以 大 大 改进 排名 顺序 [31， 
895]。 然 而 ， 这 种 方法 从 可 用 性 角度 并 不 认为 是 成 功 的 ， 也 没有 出 现在 标准 的 用 户 界 面 中 
[451，1402]。 这 源 于 几 个 因素 : 用 户 不 善于 评价 特定 文档 的 相关 性 ， 特 别 是 对 他 们 不 熟悉 
的 主题 (1620, 1687]; 另外 ， 相 关 反 馈 的 益处 是 不 一 致 的 ， 这 在 可 用 性 方面 是 有 问题 的 ; 
此 外 ， 相 关 反 馈 的 优势 大 多 体现 在 需要 大 量 相关 文档 的 任务 中 ， 但 这 在 Web 搜索 中 并 不 常 
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见 ; 事实 上 有 一 些 证 据 表 明 ， 相 关 反 馈 的 优势 在 搜索 整个 Web 时 就 会 消失 了 [1570] (大 多 
数 相关 反馈 的 优势 只 是 在 应 用 于 小 规模 文档 集 时 才 可 以 显现 出 来 ) 。 
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图 2-7 微软 的 Live 搜索 引擎 对 于 查询 “IMF” 的 结果 页 面 ， 包 括 相关 的 查询 建议 〈 在 右 
侧 ) ， 可 选择 的 “垂直 ”搜索 的 链接 〈 图 片 、 视 频 、 新 闻 等 )， 站 内 链接 如 金融 统计 
和 一 些 百科 文章 


关于 相关 反馈 的 变 体 〈 自 动 计算 “相关 文档 ”功能 ) 已 证 明 在 某 些 情况 下 有 着 积极 的 影 
响 。 在 生物 医学 文献 检索 系统 PubMed 中 ， 在 给 定期 刊 文章 的 旁边 显示 一 部 分 相关 的 文章 ， 
这 项 功能 在 生物 学 家 中 是 广 受 欢迎 的 。 一 项 研究 表明 ， 在 显示 相关 文档 的 会 话 中 ，18. 5% 的 
情况 下 ， 用 户 会 点 击 所 建议 的 文档 [1033]. 


2.3.6 组 织 搜索 结果 


搜索 人 员 通 常 表示 他 们 希望 将 搜索 结果 分 成 若干 有 意义 的 组 ， 以 方便 理解 搜索 结果 和 决 
定 下 一 步 如 何 做 。 在 一 项 提取 搜索 结果 分 组 的 纵向 研究 表明 ， 在 应 用 分 组 机 制 的 情况 下 ， 用 
户 的 搜索 习惯 发 生 了 改变 [862]。 现 在 ， 有 两 种 搜索 结果 分 组 的 常用 方法 : 分 类 系统 Cat- 
egory system) ， 特 别 是 分 面 分 类 (faceted category) 和 聚 类 (clustering)。 在 本 节 中 ， 对 这 
两 种 方法 进行 详细 介绍 ， 对 它们 的 可 用 性 进行 比较 。 

分 类 系统 将 一 组 有 意义 的 标签 组 织 在 一 起 来 反映 某 个 领域 的 相关 概念 。 它 们 通常 是 手动 
构造 的 ， 尽 管 为 文档 自动 设 定 类 别 已 经 可 以 达到 一 定 的 准确 率 了 [1446] (8 wR), FR 
分 类 系统 有 连贯 和 (相对 〉 完整 的 特点 ， 它 们 的 结构 也 是 可 预测 的 ， 在 同一 个 信息 集合 内 的 
搜索 结果 是 一 致 的 。 

在 用 于 组 织 搜索 结果 和 表达 信息 集合 结构 的 分 类 结构 中 ， 最 常见 的 是 扁平 的 《flat)、 层 
次 的 《hierarchical) MA Hi (Faceted) 分 类 结构 。 扁 平分 类 是 话题 或 对 象 的 一 个 列表 。 它 
们 可 以 用 做 分 组 、 过 滤 《缩小 )， 或 者 对 搜索 界面 中 的 文档 集 进行 排序 。 大 多 数 网 站 将 信息 
分 类 组 织 ， 选 择 相应 的 类 别 可 以 缩小 显示 的 信息 集合 。 在 一 些 实验 中 ，Web 搜索 引擎 自动 
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地 按 扁平 分 类 组 织 信息 ; 研究 表明 用 户 对 这 种 设计 给 予 了 积极 的 回应 [519，945]。 在 庞大 
的 Web 内 容 中 找 出 适用 的 类 别 子 集 是 非常 困难 的 ， 相 应 地 ， 分 类 系统 对 于 内 容 更 为 集中 的 
信息 集合 似乎 有 更 好 的 效果 。 

在 线 层 次 组 织 (hierarchical organization) 在 桌面 文件 系统 浏览 器 中 是 最 常见 的 。 在 早 
期 的 Web 中 ， 像 雅虎 所 使 用 的 那 种 层次 化 目录 系统 能 够 将 流行 的 网 站 组 织 成 可 浏览 的 结构 。 
然而 ， 当 信息 的 集合 变 得 很 大 ， 而 且 结 构 之 间 存 在 相互 的 链接 时 ， 保 持 严 格 的 层次 化 结构 就 
会 变 得 很 困难 。 另 外 ，Web 的 大 小 远 远 超过 了 在 这 个 系统 中 可 管理 的 浏览 内 容 ， 而 搜索 引 
擎 的 应 用 极 大 地 替代 了 目录 结构 的 浏览 。 

层次 化 对 于 目录 形式 的 结果 会 非常 有 效 ， 如 一 本 书 或 较 小 的 文档 集 。Superbook 系统 
[527, 528, 974] 是 一 个 早期 的 搜索 界面 ， 它 用 大 规模 文档 的 结构 来 显示 查询 项 命中 的 情 
况 。 在 用 户 指 定 对 一 本 书 的 查询 后 ， 搜 索 结果 会 显示 在 层次 目录 中 〈 见 图 2-8) 。 当 用 户 从 目 
录 视 图 中 选择 一 页 时 ， 页 面 会 自动 显示 在 右 侧 ， 此 页 内 的 查询 项 会 被 加 亮 反 转 显示 。 最 近 ， 
有 些 科研 项 目 应 用 这 个 思想 来 组 织 企业 网 [363，1173，1711] 。 


The Super Book Document Browser Features 
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图 2-8 SuperBook 的 界面 ， 通 过 应 用 一 个 从 大 规模 手册 中 制定 的 目录 ， 
在 上 下 文中 显示 了 检索 结果 [974] 


越 来 越 多 的 人 认识 到 ， 严 格 的 层次 化 分 类 组 织 对 于 信息 结果 的 导航 并 不 是 理想 的 选择 。 层 次 
结构 强迫 用 户 从 一 个 特定 类 别 开 始 ， 而 大 多 数 信息 项 可 能 会 有 许多 不 同类 别 的 属性 。 层 次 化 还 经 
常 假 设 信息 项 仅仅 被 放置 在 分 类 系统 的 一 个 地 方 ， 然 而 ， 计 算 机 界面 要 比 图 书馆 书架 更 为 灵活 。 

一 种 叫做 分 面 元 数据 的 表示 方法 ， 已 经 成 为 组 织 网 站 内 容 和 搜索 结果 的 主要 方式 。 分 面 
元 数据 是 扁平 分 类 和 和 完全 知识 表示 在 复杂 度 上 的 折 中 ， 如 果 设 计 得 合理 ， 就 很 容易 被 用 户 所 
理解 ， 相 比 于 其 他 组 织 形 式 也 更 受 青 睐 。 不 同 于 建立 大 规模 的 分 类 层次 结构 ， 分 面 元 数据 由 
分 类 集合 所 组 成 (扁平 的 或 层次 的 )， 每 一 个 都 对 应 于 和 需要 导航 的 文档 集 相关 的 不 同 分 面 
(维度 或 特征 类 别 )。 在 设计 好 分 面 之 后 ， 文 档 集 中 的 每 一 项 都 被 赋予 分 面 中 的 若干 个 标签 。 

应 用 了 层次 化 分 面 导航 的 界面 会 同时 显示 接 下 来 要 去 的 网 页 的 预览 和 如 何在 浏览 中 返回 
前 一 个 状态 ， 同 时 将 类 别 结构 中 的 文本 搜索 无 缝 地 结合 进来 。 从 而 ,用户 所 需 的 思考 就 减少 
了 ， 因 为 提高 了 识别 的 召回 率 ， 同 时 又 保证 用 户 在 每 次 操作 时 都 给 出 逻辑 合理 但 不 常见 的 选 
择 ， 最 终 还 保证 不 会 有 空 的 结果 集 。 这 种 方法 提供 了 组 织 搜索 结果 和 随后 查询 内 容 的 一 种 方 
案 ， 它 可 以 作为 探索 和 发 现 过 程 的 重要 结构 。 

图 2-9a、b 显示 了 在 一 个 假想 的 搜索 会 话 中 ， 一 个 典型 图 片 搜 索 界面 的 搜索 结果 。 用 户 
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在 “Advanced Search” (高 级 搜索 ) EPEAREN “castle” (城堡 ) ， 并 试图 选择 “10th 

Century” (10 世纪 )， 但 系统 返回 了 错误 信息 ， 表 示 没 有 记录 被 找到 。 在 一 些 试验 和 错误 
后 ， 用 户 发 现 对 于 “17th Century” (17 thet) 的 搜索 可 以 返回 结果 ， 并 且 该 结果 以 固定 的 
顺序 显示 ， 不 允许 组 织 和 探索 。 
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b) 


在 旧金山 美术 馆 图 片 集 上 的 典型 图 片 搜索 界面 。a) 用 户 在 典型 的 “Advanced 
Search”( 高 级 搜索 ) 框 中 的 两 个 字段 输入 查询 后 出 现 的 错误 信息 。 这 种 输入 框 的 
常见 问题 是 产生 空 的 答案 集 。b) 通过 “Advanced Search”( 高 级 搜索 ) 框 搜索 关键 
词 “castle” 和 时 间 区 间 “17th Century” 的 标准 搜索 结果 列表 


图 2-10 显示 通过 应 用 分 面 导 航 的 Flamenco 系统 ， 同 种 类 的 信息 可 以 获得 更 好 的 可 理解 性 
[737，1746]。 用 户 最 初 键 人 查询 关键 词 “castle” (城堡 ) ， 搜 索 结 果 显 示 了 229 个 图 片 ， 左 侧 
结果 可 以 允许 用 户 通过 Media (媒体 ) 类 型 、Location 〈 地 点 ) Object (对 象 ) (图 片 内 可 见 )、 
Building (建筑 物 ) 类 型 “castle” GRE) 是 其 中 一 种 )， 或 Author (作者 ) 等 信息 来 组 织 答 


图 2-9 


第 2 章 用 户 搜索 界面 。 


案 的 结构 。 由 于 用 户 能 够 选择 超 链接 ， 并 且 查询 预览 [1281] 可 以 显示 在 链接 被 点 击 后 可 以 看 
到 多 少 结果 ， 因 此 空 的 答案 列表 不 再 是 一 个 严重 的 问题 。 在 这 个 例子 中 ， 用 户 首先 选择 
“Media>Prints” (媒体 盖 印刷 品 ) ， 然 后 再 由 “Location 之 Europe” (地 点 之 欧洲 ) 对 结果 进行 
组 织 ， 然 后 通过 选择 “Print”( 印 刷 品 〉 下 面 的 分 支 重 新 进行 组 织 。 左 侧 的 层次 化 分 面 元 数据 
显示 了 剩 下 的 197 张 图 片 属于 哪个 欧洲 国家 ， 以 及 出 现 的 次 数 。 选 择 一 张 图 片 会 显示 与 其 相关 
的 元 数据 ， 并 附 有 相关 概念 的 链接 ， ON “ruins” (废墟 ) 和 “hill”( 小 山 )。 图 2-11 显示 了 如 何 将 
类 似 的 想法 应 用 于 数字 图 书馆 目录 ， 图 2-12 显示 了 它 应 用 于 黄页 和 网 站 预览 的 情形 。 
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图 2-11 芝加哥 大 学 数字 图 书馆 的 分 面 导航 ,来自 AquaBrower 
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图 2-12 yelp.com 的 分 面 导 航 


可 用 性 研究 发 现 ， 如 果 界 面 设 计 得 合理 ， 那 么 用 户 喜 欢 并 能 成 功 地 应 用 分 面 导航 。 在 用 
做 集合 搜索 和 浏览 时 ， 分 面 界 面相 对 于 标准 的 关键 词 -结果 列表 界面 有 巨大 的 优势 【737， 
1746]. 

聚 类 是 指 将 条 目 按照 某 种 相似 度 进 行 分 组 〈 见 第 8 章 )。 在 文档 聚 类 中 ， 相 似 度 一 般 通 
过 计算 词 和 短语 特征 间 的 关联 性 和 共通 性 得 到 的 。 聚 类 最 大 的 好 处 在 于 它 是 完全 自动 的 ， 很 
容易 应 用 于 任何 的 文本 集 。 育 类 还 能 反映 一 组 文档 中 令 人 感 兴趣 的 、 潜 在 的 、 未 知 的 新 趋 
势 ， 并 能 将 那些 彼此 相似 但 与 文档 集中 其 他 文档 不 同 的 文档 分 组 到 一 起 ， 例 如 出 现在 主要 语 
种 为 英语 的 文档 集中 所 有 用 日 语 写 的 文档 。 

聚 类 的 缺点 包括 形式 和 结果 质量 的 不 可 预测 性 、 标 记分 组 的 难度 ， 以 及 聚 类 层次 化 的 反 
直 沉 性。 有些 算法 (862, 1764] 在 占 主导 作用 的 短语 间 建 立 艇 (cluster)， 来 构造 可 理解 的 
标签 AE 2-13), 但 是 每 个 艇 的 内 容 不 一 定 是 彼此 连贯 的 。 

图 2-14 显示 了 Vivisimo 的 Clusty 系统 在 查询 “senate”( 参 议院 ) 时， 搜索 引擎 结果 的 
聚 类 输出 。 图 中 扩展 显示 了 两 个 徐 以 表示 了 它们 的 分 支 层次 结构 。 最 上 层 的 艇 被 标记 为 
“Biography, Constituent Services” (fW, HFR), ETNIA: “Photos” 
(AIH). “Issues/news” (出 版 物 / 新 闻 ) 、“Visiting Washington” (访问 华盛顿 ) 、“Voting 
record” (RHR), “Virginia” (H EJEM) A “Maine” (WAM) E. BERR HIT 
么 并 不 是 非常 明确 ; 如果 它 代表 的 是 美国 参议 院 ， 那 么 在 其 他 得 中 也 会 有 很 多 关于 美国 参议 
院 的 页 面 。 无 论 如 何 ， 最 上 层 的 标签 并 不 能 代表 具体 的 信息 。 下 一 个 最 高 层次 的 簇 标签 为 
“Senate Committee”( 参 议院 委员 会 )， 选 择 它 后 则 会 显示 相应 的 组 成 文件 (在 图 片 右 侧 )， 
从 美国 参议 院 主页 (关注 的 不 是 其 下 属 的 多 个 委员 会 ) 到 某 些 具体 的 美国 参议 院 委 员 会 的 网 
页 ， 再 到 堪萨斯 州 和 东 埔 寨 的 页 面 。 第 三 个 主要 的 和 能 “Votes” (投票 )， 也 扩展 到 一 些 如 
“Constituent Services” CMR), “Obama Budget”? (HE GMB), “Expand” (扩张 )， 
以 及 “Senate Calendar” (人 参议院 日 历 ) WFR. 
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图 2-13 应 用 Findex RÆ [862] 产生 的 输出 ， 来 自 FindEx. com Inc. © 2010 和 许可 方 








Ciuster Senate Committee contains 29 documents 





clusters 





| AN Results res remix 1 US Senate Oe 
@ Biography. Constituent Official site ofthe iming symbol of our union of states ~ Connect with Senators, anc fearn apout Senate 
services i57; committees, a, n, records, art, history. schedules, news, tours 
WW ate Quy -Ica v@ Open Orea 
© Photos ,< 


US Senate Committee on Commerce Science. & Transportation B à ¢ 
Commitee Juris hcdon indudes the Coast Guard coastal management, communications, highway salety 


N 


O issues, news c 





© Visiting Washington : waterways. interstate commerce, matitime commerce, fisheries, merchant marine 
@ Voting record js: -OMe senate gov -jtara -Live Agr 
© Virginia a 3 Umed States Senate Committee on Banking. Housing and Urban Affairs & & a 
© Maine United States enes Som on Banking Housing and Urban Affairs 
ache 
© Biography, Contact Detaäs, 
And Constituent Services (2; 4. Senate of the Kingdom of Cambodia & A a 
© Policy, Calendar z information about legislative adivites jaws, committees, senators and an historical timeline from 1998 
Www Senate gov kh -icachel- Open Daectary As 
© Other Topics «+ 


5. Kansas Senate Se 


Senate Committee 3 
e e Senate Roster Home > Senate _. Senate Committees 


es 


© State Senate (1; ww kSisgiSiature arghegsry © onateindes 2 
@ votes 115 6 US Senate Committee on Energy and Natural Resources B A x 
Q Constituent services = Has jurisdiction over energy policy, reguiahon. and research Also deals with energy and mineral 
+ Obama Budget: SONES pons used for energy anspor imigabdon, redamation, mining 
anerg mef- Live 
i © Expand 2) 





图 2-14 查询 “senate” 的 聚 类 输出 ， 来 自 Clusty. com 


话题 的 混合 性 和 分 组 之 间 的 重 倒 ， 对 文档 聚 类 是 很 典型 的 。 可 用 性 结果 表明 ， 用 户 不 襄 
欢聚 类 产生 的 无 规律 的 分 组 ， 而 是 更 喜欢 可 理解 的 、 并 通过 统一 的 层次 颗粒 度 来 表示 的 层次 
化 结构 [1301，1376] 。 

分 面 界面 相对 于 紊 类 的 一 个 缺陷 是 感 兴趣 的 类 别 必须 是 预先 知道 的 ， 所 以 数据 中 一 些 重 
要 的 新 趋势 可 能 不 会 注意 到 。 尽 管 建立 分 面 层 次 化 结构 的 尝试 正在 不 断 推进 之 中 [1536], 
但 到 目前 为 止 ， 最 大 的 缺陷 是 在 大 多 数 情 况 下 ， 类 别 的 层次 化 结构 是 手动 建立 的 ， 而 自动 建 
立 类 别 只 取得 了 部 分 的 成 功 。 
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2.4 搜索 界面 的 可 视 化 


本 书 主要 介绍 文本 信息 的 检索 。 文 本 可 以 非常 有 效 地 传达 抽象 信息 ， 但 是 阅读 甚至 浏览 
文本 都 是 费力 的 活动 ， 而 且 人 们 不 得 不 以 线性 的 方式 完成 。 

相 比 之 下 ， 图 像 可 以 被 快速 地 浏览 ， 可 视 化 系统 可 以 并 行 地 感知 信息 。 人 们 可 以 很 好 地 

. 理解 图 像 和 可 视 化 信息 ， 图 片 和 图 形 更 迷人 也 更 有 感染 力 。 与 其 他 方法 相 比 ， 信 息 的 可 视 化 
全 | 表示 可 以 更 快速 和 有 效 地 传达 不 同 的 信息 。 我 们 可 以 想象 ， 用 文字 描述 一 张 脸 与 显示 一 张 脸 

的 图 片 会 有 怎样 的 不 同 ， 或 者 还 可 以 考虑 一 下 ， 一 张 包含 关联 数据 的 表格 与 表示 相同 信息 的 
散 点 图 之 间 存 在 的 差异 。 

在 过 去 的 几 年 中 ， 信 息 的 可 视 化 在 新 闻 报 道 和 金融 分 析 中 已 经 很 普及 了 ， 关 于 信息 可 视 
化 的 创新 性 想法 已 经 蓬勃 发 展 并 扩展 到 整个 Web。 社 交 可 视 化 网 站 ， 如 ManyEyes [1637], 
允许 用 户 上 传 他 们 的 数据 并 通过 条 形 图 、 气 泡 图 或 折线 图 来 探究 其 内 容 ， 数 据 分 析 工 具 ， 如 
Tableau， 可 以 帮助 分 析 人 员 可 视 化 地 将 他 们 的 数据 分 片 以 及 重新 排列 。 

然而 ， 对 抽象 信息 进行 可 视 化 要 困难 得 多 ， 而 文本 形式 信息 的 可 视 化 更 是 格外 有 挑战 性 
的 任务 。 语 言 是 我 们 交流 抽象 想法 的 主要 方式 ， 而 这 些 想法 往往 没有 明显 的 表现 形式 。 词 语 
和 概念 没有 内 在 的 顺序 ， 这 使 得 词语 很 难 通过 坐标 来 画 出 有 意义 的 图 。 

尽管 有 这 些 困难 ， 但 研究 人 员 还 是 试图 通过 信息 可 视 化 技术 来 表示 信息 获取 过 程 的 各 个 
方面 。 除 了 应 用 图 标 和 普 色 的 加 亮 显 示 之 外 ， 他 们 还 常常 使 用 线条 、 贺 图 和 画布 形式 的 空间 
布局 来 作为 信息 视图 。Sparklines [1606] 是 一 种 缩 略 图 ， 内 车 在 文本 和 表格 里 显示 。 对 于 
可 视 化 抽象 信息 ， 交 互 性 似乎 是 非常 重要 的 属性 ; 最 主要 的 交互 信息 可 视 化 技术 包括 平移 
(panning) 和 缩放 (zooming), Æ$ # AMA (distortion-based) (包括 焦点 加 上 下 文 (focus 
plus context))， 以 及 使 用 动画 来 保持 上 下 文 信息 并 使 闲 塞 的 信息 可 见 。 

搜索 可 视 化 的 实验 主要 应 用 在 以 下 各 个 方面 : 

。 可 视 化 布尔 语法 

。 可 视 化 查询 结果 中 的 查询 项 

。 可 视 化 词语 和 文档 间 的 关系 

。 可 视 化 文本 挖 所 

接 下 来 将 对 每 一 项 进行 具体 讨论 。 


2.4.1 可 视 化 布尔 语法 


正如 上 文 所 提 到 的 那样 ， 布 尔 查 询 的 语法 对 于 大 多 数 用 户 来 说 是 有 困难 的 ， 也 很 少 应 

用 于 Web 搜索 中 。 很 多 年 来 ， 研 究 人 员 已 经 实验 了 如 何 通 过 可 视 化 布尔 查询 来 使 查询 更 

容易 地 为 人 所 理解 。 一 个 常用 的 方法 是 可 视 化 显示 韦 因 图 (Venn diagram); Hertzum 和 

Frokjaer [755] 发 现 简单 的 韦 恩 图 表示 可 以 获得 比 布尔 语法 更 为 准确 的 结果 。 这 种 想法 的 

一 个 更 为 灵活 的 版 本 可 以 在 VQuery 系统 上 看 到 [851] ( 见 图 2-15) 。 每 一 个 查询 项 用 一 

个 圆圈 或 椭圆 表示 ， 圆 图 间 的 交集 代表 查询 项 之 间 的 AND 运算 GRAM). VQuery Ñ 

过 画布 活动 区 域内 的 圆圈 集合 表示 逻辑 析 取 ， 通 过 活动 区 域内 对 圆圈 的 取消 选 定 来 表示 
逻辑 非 。 

布尔 查询 的 一 个 问题 是 ,它们 很 容易 最 终 产 生 空 结果 或 者 太 多 的 结果 。 为 了 纠正 这 个 问 

[42] 题 ， 过 滤 流 可 视 化 允许 用 户 为 查询 设计 不 同 的 分 量 ， 然 后 通过 图 形 流 的 方式 显示 在 应 用 每 个 
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运算 符 后 有 多 少 搜索 结果 [1755]。 布 尔 查询 的 其 他 可 视 化 表示 包括 垂直 和 水 平 的 排列 区 块 
[60]， 以 及 将 查询 项 





in @ HCI Bibliography 
6 


Search for any documents in "HCI Bibliography” containing either Query and Boolean; or Graphical, 
‘ching and Browsing; but not Ranking 





4 documents match the selected query 
Graphical Presentation of Boolean Expressions in a 月 Nichord 
Query Processing in a Heterogeneous Retrieval Netw Patricia Simpson 
On Extending the Vector Space Mode! for Boolean Qu S. K. M. Wong, H. Ziarko, U. U. Raghavan, P. C. N. Hong 
A Direct Manipulation Interface for Boolean Inform Peter G, Anick, Jeffrey D. Brennan, Rex A. Flynn, David 


图 2-15 VQuery [851] 为 布尔 查询 制定 的 韦 恩 图 界面 


2.4.2 可 视 化 查询 结果 中 的 查询 项 


如 上 文 所 讨论 的 那样 ， 理 解 查询 项 在 检 出 文档 中 所 扮演 的 角色 有 助 于 对 相关 性 的 评估 。 
在 标准 的 搜索 结果 列表 中 ， 通 常会 选择 那些 包含 查询 项 的 句子 作为 摘要 ， 而 这 些 查询 项 出 现 
在 标题 、 搞 要 和 网 址 时 会 被 加 亮 或 黑体 显示 。 从 可 用 性 方面 看 ， 这 种 加 亮 显示 的 方法 已 经 证 
明 是 有 效 的 。 

人 们 已 经 设计 出 了 许多 实验 性 的 可 视 化 界面 来 明确 这 种 关系 。 最 有 名 的 是 TileBars 界 
面 [732]， 其 中 文档 用 水 平 布 局 图 (horizontal glyph) 显示 出 来 ， 命 中 的 查询 项 在 布局 图 中 
的 相应 位 置 标 出 〈 见 图 2-16) 。 它 鼓励 用 户 将 查询 项 拆 分 成 不 同 的 分 面 ， 每 一 行 有 一 个 概念 ， 
每 一 个 文档 表示 内 的 水 平行 说 明了 每 一 个 主题 下 查询 项 出 现 的 频 度 。 较 长 的 文档 被 分 为 子 话 
题 的 片段 ， 其 方法 或 者 通过 段落 或 章节 分 割 标 记 ， 或 者 通过 一 项 叫做 TextTiling [731] 的 
自动 段落 划分 技术 。 颜 色 的 灰 度 表示 了 查询 项 出 现 的 频 度 。 可 视 化 显示 表明 了 不 同 的 查询 主 
题 在 文档 中 重合 的 情况 。 

人 们 还 设计 出 了 一 些 其 他 的 TileBars 显示 形式 ， 例 如 为 每 个 查询 项 显示 一 个 正方 形 的 
简化 版 ， 在 这 个 版 本 中 ， 使 用 了 颜色 分 层 来 表示 查询 项 的 频 度 [770]。 两 个 更 为 精简 的 版 本 
在 文档 图 形 的 按钮 中 用 灰色 显示 了 查询 的 命中 结果 [741]， 或 者 在 饼 图 中 用 彩色 显示 命中 结 
果 [51], 但 这 些 视图 并 不 能 显示 查询 项 的 位 置 重 普 情 况 。 
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FR88513-0157 

AP: Groups Seek $1 Billion a Year for Aging Research 

SJMN: WOMEN’S HEALTH LEGISLATION PROPOSED a 

AP: Older Athletes Run For Science 

FR: Committee Meetings | 

FR: October Advisory Committees; Meetings | 

FR88120-0046 

ar ena 
1 


AP: Survey Says Experts Split on Diversion of Funds for AIDS / 
FR: Consolidated Delegations of Authority for Policy Dev 
SJMN: RESEARCH FOR BREAST CANCER IS STUCK IN P NPE 





图 2-16 在 TileBars 可 视 化 界面 中 ， 检 出 文档 中 的 查询 项 ， 来 自 [732] 


在 文档 集 内 显示 查询 项 命中 结果 的 其 他 方法 包括 ， 将 查询 项 放 在 条 形 图 、 散 点 图 和 表格 
中 。Reiterer 等 人 [1342] 的 可 用 性 研究 比较 了 五 种 视图 : 标准 的 Web 搜索 引擎 形式 的 结 
果 列 表 视 图 ;包含 了 标题 和 文档 元 数据 ， 用 图 形 显示 在 文档 内 部 的 查询 项 命中 位 置 ， 并 通过 
高 度 来 表示 频率 的 列表 视图 〈 见 图 2-17); 彩色 的 TileBars 类 型 的 视图 ， 其 中 的 文档 标题 显 
PERR: R Veerasamy 和 Belkin [1630] 那样 的 彩色 柱状 图 视图 ; 表示 相关 性 得 分 
及 其 发 布 日 期 的 散 点 图 视图 。 

在 被 问 及 主观 感受 时 ，40 个 参与 者 大 体 上 都 会 首先 选择 字段 可 排序 的 视图 ， 然 后 是 
TileBars， 最 后 是 网 页 样式 的 列表 。 柱 状 图 和 散 点 图 则 有 很 多 负面 反应 。 对 于 任务 有 效 性 而 
言 ， 其 他 方法 和 网 页 样式 的 列表 没有 明显 的 不 同 〈 除 了 柱状 图 之 外 ， 其 效果 会 差 很 多 )。 所 
有 其 他 方法 都 比 网 页 样式 列表 花费 更 多 的 任务 时 间 。 最 后 一 点 说 明了 可 视 化 搜索 中 一 个 常见 
的 结果 一 一 即使 在 可 视 化 被 认为 有 助 于 任务 的 情况 下 ， 它 通常 也 比 只 有 文本 的 界面 花费 更 长 
的 搜索 时 间 。 这 可 能 是 因为 从 解释 图 像 转换 到 阅读 文本 需要 花费 一 些 时 间 ， 因 为 它们 属于 不 
同 的 认 知 功能 。 

另 一 种 在 文档 内 部 显示 命中 查询 项 的 想法 是 显示 缩 略 图 一 一 文档 视觉 外 观 的 缩 略 版 
CHR 2-18) 。 一 项 应 用 缩 略 图 的 实验 发 现 它们 在 改进 搜索 结果 方面 不 会 比 空白 区 域 更 好 
[L468]， 另 一 项 实验 发 现 参 与 者 更 容易 错误 地 认为 显示 了 缩 略 图 和 标题 的 文档 是 相关 的 
〈 相 比 于 那些 只 显示 缩 略图 的 情况 ) [523]。 这 两 项 研究 都 显示 了 缩 略图 对 用 户 有 主观 上 
的 作用 。 

负面 的 研究 结果 可 能 源 于 缩 略图 大 小 的 问题 ， 更 新 的 结果 表明 增加 缩 略 图 的 大 小 可 以 提 
高 搜索 结果 的 可 用 性 [858]j。 一 项 相关 的 研究 表明 通过 加 亮 显示 缩 略 图 内 部 的 查询 项 ， 使 其 
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更 大 并 且 更 可 见 ， 对 于 某 些 种 类 的 任务 来 说 可 以 提高 搜索 结果 的 可 用 性 [1720] ( 见 图 2-18). 
在 SearchMe 搜索 引擎 中 ， 已 经 开始 在 搜索 结果 中 使 用 更 大 的 缩 略图 和 相应 增 大 的 文本 ， 而 
这 是 通过 封面 流 (Cover-flow?) 动画 来 表示 的 。 
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图 2-17 a) 字段 可 排序 的 搜索 结果 视图 ， 包括 一 个 柱状 图 风格 的 图 形 界面 ， 表 示 了 查 
询 项 命中 的 位 置 ， 这 是 一 个 简化 版 本 的 TileBars, 来 自 [M. A. Hearst, Search 
User Inter faces, Cambridge University Press, 2009, figure 10.17a] [735]; 
b) 彩色 版 的 TileBars 视图 ， 来 自 [1342] 


O ” 即 由 苹果 公司 首创 的 将 多 首 歌曲 的 封面 以 3D 界面 形式 显示 出 来 。 一 一 译 者 注 
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图 2-18 带 文本 增强 功能 的 缩 略 图 ， 来自 [1720] 


2.4.3 可 视 化 词语 和 文档 间 的 关系 


很 多 可 视 化 系统 的 开发 人 员 已 经 提出 将 词语 和 文档 放置 在 一 个 二 维 画布 上 的 想法 ， 其 中 
符号 的 邻近 代表 词 条 与 文档 语义 相关 。 这 个 想法 的 一 个 较 早 版 本 出 现在 VIBE 的 界面 中 ， 其 
中 查询 项 放置 在 一 个 平面 上 ， 包 含 查询 项 组 合 的 文档 被 放置 在 代表 那些 查询 项 的 图 标的 中 间 
( 见 图 2-19) [1228]。 这 种 想法 的 一 个 现代 版 本 在 Aduna Autofocus 产品 中 出 现 ， 另 外 在 
VIBE 的 基础 上 ，Lyberworld 项 目 a 制作 出 了 一 个 3D 版 本 。 


we ， 


Fos 识 表示 不 





图 2-19 VIBE 的 显示 ， 其 中 查询 项 在 二 维 空间 内 展示 ， 而 文档 根据 其 文本 来 排列 ， 源 自 [1228] 


这 种 想法 的 另 一 个 形式 是 将 文档 或 词语 从 一 个 高 维 的 词 项 空间 映射 到 二 维 的 乎 面 ， 然 后 
文档 或 词语 通过 2D 或 3D 显示 在 这 个 平面 上 [53，662，758，1688，1700j。 这 种 形式 的 聚 
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类 能 够 用 在 根据 查询 检 出 的 文档 ,或 者 在 一 个 预 处 理 过 的 文档 集 内 加 亮 显 示 与 查询 相 匹 配 的 
文档 。 图 2-20 是 两 个 基于 这 种 星空 (starfield〉 理念 的 显示 结果 。 
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b) 


2-20 用 一 个 2D 或 3D 映射 的 标志 符号 来 表示 文档 的 想法 已 经 提出 了 多 次 。 这 里 显示 两 个 
例子 : a) InfoSky， 源 自 论文 Evaluating a system for interactive exploration of large, 
hierarchically structured document repositories, Proceedings of the IEEE Symposium 
on Information Visualization, pp. 127-133 (Granitzer, M. , Kienreich, W., Sabol, 
V., Andrews, K. and Klieber, W. 2004), © 2004 IEEE [662]; b) xFind 中 的 Vi- 
sJslands， 源 自 论文 Search result visualisation with xFIND, Proceedings of User In- 
terfaces to Data Intensive Systems, pp.50-58 (Andrews, K., Gutl, C., Moser, 
J. , Sabol, V.and Lackner, W. 2001), © 2001 IEEE [53] 
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这 些 视 图 都 很 容易 计算 并 且 能 够 直观 地 显示 。 然 而 ， 现 有 的 评价 对 它们 的 可 用 性 提出 了 
负面 的 意见 [662，773，910，1400]。 主 要 的 问题 是 ， 在 这 些 视图 中 文档 的 内 容 是 不 可 见 
的 ， 而 且 2D 表示 不 像 语义 那样 可 以 进行 复杂 的 交流 。 

利用 这 种 思想 ,一 个 更 有 前 途 的 应 用 是 在 一 个 小 型 网 络 图 中 展示 词典 中 的 索引 项 , 例 
如 Visual Wordnet (W K 2-21)。 这 种 方法 通过 只 显示 与 目标 节点 直接 相连 的 节点 从 而 使 
较 大 的 WordNet 数据 库 得 到 简化 。 对 于 这 种 节点 和 连接 关系 的 视图 ， 其 应 用 情况 还 没有 
在 已 发 表 的 研究 中 进行 过 评价 ， 但 它 在 用 于 组 织 搜索 结果 时 并 没有 获得 很 好 的 结果 
[1548]. 


hired_man hired_hand 


script a 
K e heiping_hand 
handwriting `, eo 
e ® ” @ Š 
e. tog i 
E eer. 2 a) _, . -bridge_player 
Me Shee ‘hand 
5 `., O 
turn_over a 
ti .@ . 
è s @ i e ‘ .+ "manus 
pass -... 9 ; @-. 
give è a è : paw 
pass_on : mitt 


reach 


geal 


2-21 WordNet 同义词 典 的 可 视 化 表示 ， 来 自 http:;//kylescholz. com/projects/wordnet/ 


2.4.4 文本 挖掘 的 可 视 化 


2.4.3 节 说 明了 对 于 搜索 结果 来 说 ， 搜 索 可 视 化 并 没有 很 强 的 可 用 性 。 事 实 上 ， 可 视 
化 似乎 对 文本 数据 的 分 析 和 探索 更 为 有 用 。 大 多 数 搜索 系统 的 用 户 对 文档 中 的 词语 如 何 
分 布 以 及 文档 集中 最 常见 的 词语 并 不 感 兴趣 ， 但 这 些 是 计算 语言 学 家 、 分 析 学 家 以 及 奇 
特 词语 爱好 者 感 兴 趣 的 活动 。 像 Word Tree 那样 的 可 视 化 系统 [1669] 会 显示 一 部 分 文本 
词汇 索引 ， 使 得 用 户 能 够 看 到 哪些 词语 和 短语 会 常常 出 现在 给 定 词语 的 前 后 〈 见 图 2- 
22)， 另 外 还 有 NameVoyager 系统 [L1670]， 它 显示 在 不 同 的 年 代 中 ,美国 婴 儿 名 字 的 出 
MAR (MA 2-23)。 

对 搜索 界面 进行 可 视 化 ， 有 时 是 为 了 方便 信息 分 析 师 。 图 2-24 显示 的 是 TRIST 信息 
“分 类 ”系统 [854，1303]， 它 的 作用 是 帮助 信息 分 析 师 完成 工作 。 系 统 将 搜索 结果 用 文 
档 图 标 表示 ; 数 以 千 计 的 文档 可 以 显示 在 一 起 ， 系 统 支持 多 维 链 接 ， 从 而 使 我 们 能 够 发 
现 文档 间 的 特征 与 相关 性 。 图 标的 颜色 用 做 显示 哪些 文档 是 用 户 之 前 已 经 看 过 的 ， 图 标的 
大 小 和 形状 分 别 表示 文档 的 长 度 和 类 别 。 这 看 起 来 是 个 有 效 的 系统 ， 它 的 设计 者 连续 两 年 在 
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IEEE 视觉 分 析 科 技 竞赛 (IEEE Visual Analytics Science and Technology, VAST) 中 获胜 
L679]. 
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图 2-22 Word Tree 可 视 化 系统 在 Martin Luther King 的 演讲 “I have a dream” (我 有 
一 个 梦想 ) 上 的 演示 ， 来 自 The word tree, an interactive visual concordance, 
IEEE Transactions on Visualization and Computer Graphics, 14 (6), 
pp. 1221-1228 ( Wattenberg, M. # Fernanda, B., 2008), © 2008 IEEE 
[1669 | 
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图 2-23 一 个 可 视 化 演示 的 例子 ， 针 对 一 段 时 期 内 以 JA 开头 的 婴儿 名 字 的 相对 普 
RIE, 来 自 babynamewizard. com 
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图 2-24 输入 Avian Flu 相关 查询 之 后 ，TRIST 界面 的 显示 ， 来 自 Avian Flu case study 
with nSPace and GeoTime, Proceedings of the IEEE Symposium on Visual An- 
alytics Science and Technology (VAST ’ 06), pp. 27-34 ( Proulx, P.et 
al. 2006), © 2006 IEEE [1303] 


2.5 搜索 界面 的 设计 和 评价 

用 户 界 面 的 设计 是 一 项 实践 活动 ， 它 的 技术 包含 在 人 机 交互 (Human-Computer Inter- 
action, HCD 的 范畴 之 内 。 这 个 领域 研究 人 们 如 何 思考 、 如 何 反 应 、 如 何 使 用 技术 ， 以 及 
如 何 设 计 出 最 好 的 用 户 界面 来 满足 人 们 的 需要 和 倾向 。 基 于 多 年 的 经 验 ， 已 经 制定 出 一 些 实 
践 和 指导 方针 ， 帮 助人 们 设计 成 功 的 用 户 界面 。 这 些 实践 统称 为 以 用 户 为 中 心 的 设计 Cus- 
er-centered design) ， 它 围绕 着 用 户 的 行为 和 思考 过 程 完成 设计 ， 而 不 是 其 他 无 关 的 因素 。 

设计 过 程 首 先 要 预期 用 户 的 目标 (goal) 是 什么 ， 然 后 设计 一 个 界面 来 帮助 用 户 通过 
完成 一 系列 任务 (task) 来 完成 目标 。 在 信息 获取 领域 ， 目 标的 范围 可 能 会 非常 广泛 ， 从 
寻找 管道 工 到 保持 对 商业 竞争 对 手 的 关注 ， 从 写作 可 发 表 的 学 术 论文 到 调查 一 宗 坎 诈 指 
控 。 信 息 获取 任务 可 以 用 来 完成 这 些 目标 。 这 些 任 务 覆 盖 了 从 询问 具体 问题 到 彻底 研究 
某 个 主题 。 

用 户 界 面 设计 是 一 个 不 断 改进 的 过 程 ， 其 中 的 目标 和 任务 通过 对 用 户 的 研究 来 说 明 ， 然 
后 构建 初始 设计 一 一 这 通常 会 基于 现存 的 设计 ， 但 也 有 可 能 包含 一 些 新 的 想法 。 这 些 初始 设 
计 由 预期 用 户 进行 测试 ， 然 后 进行 评价 并 重新 设计 ， 接 着 再 进行 评价 ， 这 样 的 循环 需要 重复 
很 多 次 。 

评价 用 户 界面 的 过 程 通常 与 评价 排序 算法 或 慰 虫 技术 不 同 。 疏 虫 可 以 通过 一 些 硬性 的 量 
化 指标 ， 如 覆盖 度 和 新 鲜 度 来 评价 。 排 序 算法 可 以 通过 精度 、 召 回 率 和 速度 来 评价 。 但 是 ， 
用 户 界面 的 质量 是 由 用 户 对 它 的 反应 来 决定 的 。 与 量化 指标 相 比 ， 主 观 反 应 即使 不 能 说 是 更 
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重要 的 ， 至 少 也 是 一 样 重要 的 ， 因 为 如 果 用 户 需要 在 两 个 系统 中 选择 一 个 ， 那 么 他 们 会 使 用 
他 们 偏爱 的 那个 。 偏 爱 的 原因 可 能 是 由 多 个 因素 决定 的 ， 包 括 速度 、 熟 悉 度 、 审 美观 、 偏 好 
特性 ， 或 者 主观 感知 的 排序 准确 性 。 通 常 更 受 青睐 的 选择 会 是 用 户 熟 悉 的 那个 。 尤 其 是 在 搜 
索 界面 中 ， 一 个 新 的 界面 必须 要 在 主观 感知 上 比 旧 的 质量 更 好 ， 用 户 才 会 转 而 使 用 新 的 界 
面 。 这 一 现象 可 以 解释 为 什么 自从 搜索 引擎 第 一 次 出 现 之 后 搜索 结果 的 显示 方法 就 没有 什么 
明显 的 变化 。 

如 何 能 够 最 好 地 评价 用 户 界 面 ， 取 决 于 当前 处 于 开发 周期 中 的 哪个 阶段 。 当 开始 一 个 新 
设计 或 新 想法 的 时 候 ， 通 常会 使 用 简易 Cdiscount) 可 用 性 的 方法 。 简 易 方 法 会 向 一 些 潜在 
的 用 户 显 示 若 干 种 不 同 的 设计 ， 然 后 让 他 们 指出 哪些 部 分 是 有 前 景 的 ， 而 哪些 是 没有 前 景 
的 。 通 常 在 这 个 任务 中 会 使 用 草图 上 的 原型 设计 ， 因 为 它们 可 以 快速 地 开发 ， 也 很 容易 使 
弃 ， 因 为 有 证 据 显示 ， 比 起 完整 的 成 品 ， 用 户 更 愿意 去 批评 那些 明显 未 完成 的 东西 [163， 
1344]。 通 常 这 个 设计 -测试 -再 设计 的 过 程 ， 在 找到 一 个 可 接受 的 交互 原型 起 始点 之 前 会 循 
HETK. 

接 下 来 ， 应 当 进 行 非 功 能 性 的 交互 设计 开发 ， 并 由 少量 的 参与 者 进行 测试 ， 获 取 他 们 的 
主观 反应 ， 并 确定 哪些 元 素 在 设计 中 有 和 良好 的 效果 ， 以 及 哪些 因素 会 产生 混淆 或 者 效果 不 
佳 。 如 果 一 个 参与 者 看 着 屏幕 而 不 知道 该 做 什么 ， 那 么 就 意味 着 需要 重新 设计 了 。 

另 一 种 常见 的 折扣 评价 方法 是 启发 式 评价 (heuristic evaluation) ， 其 中 可 用 性 专家 “ 走 
查 ”(walk through) 设计 ， 然 后 评价 其 是 否 符合 设计 准则 。 这 种 评价 方法 在 寻找 可 用 性 问 
题 时 有 很 好 的 效果 ， 因 为 经 验 丰 富 的 专家 可 以 准确 地 预见 潜在 的 问题 ,但 是 这 一 方法 应 当 与 
目标 用 户 的 响应 相 结 合 。 

在 多 次 设计 迭代 后 ,通常 就 能 设计 出 一 个 交互 系统 ， 此 时 可 以 在 一 个 较 正 式 的 实验 中 进 
行 测试 ， 由 研究 的 参与 者 来 执行 ， 并 基于 一 系列 的 指标 ， 将 新 的 设计 和 一 个 有 竞争 力 的 基准 
进行 对 比 ， 或 者 比较 两 种 候选 的 设计 方案 。 在 评价 搜索 界面 时 ， 最 重要 的 是 让 参与 者 有 是 够 
的 动力 去 完成 那些 任务 [288，1524]j。 如 果 我 们 要 求 那些 不 关心 照相 机 镜头 或 者 对 于 照相 机 
镜头 非常 了 解 的 人 去 对 照相 机 镜头 做 广泛 的 搜索 ， 那 么 很 可 能 不 会 产生 有 实际 意义 的 结果 。 
为 了 确保 参与 者 的 积极 性 ， 研 究 参 与 者 应 当 对 查询 和 信息 集合 的 主题 充满 兴趣 ， 另 外 应 该 选 
择 那些 会 最 终 使 用 这 个 系统 的 人 ， 或 者 接近 的 替代 人 员 〈 例 如， 护理 专业 的 学 生 通常 要 比 执 
业 护 士 更 愿意 测试 一 项 设计 ) 。 

正式 的 实验 通常 旨 在 产生 研究 结果 ， 用 于 发 表 以 及 在 更 为 广泛 的 群体 中 应 用 ， 也 有 一 些 
机 构 会 在 其 内 部 进行 正式 的 研究 。 正 式 的 研究 需要 遵循 科学 领域 中 的 实践 方法 ， 如 招募 研究 
参与 者 ， 对 控制 条 件 和 实验 条 件 进 行 比较 。 正 式 的 实验 应 当 谨慎 地 进行 设计 ， 需 要 考虑 到 那 
些 潜在 的 干扰 因素 ， 比 如 要 平衡 那些 参与 竞争 的 设计 的 显示 顺序 ， 以 及 实验 人 员 要 避免 对 某 
个 设计 表现 出 偏见 。 只 有 达到 这 样 要 求 的 研究 才能 回答 诸如 “ 某 个 设计 元 素 的 优 劣 ”或 者 
“新 的 特性 是 否 比 现 有 的 系统 更 好 ”之 类 的 问题 [735] 。 

这 种 研究 能 够 发 掘 重要 的 主观 性 结果 ， 如 新 的 设计 是 否 要 明显 好 于 基准 系统 ， 但 是 搜索 
界面 本 身 的 特点 使 得 我 们 难以 通过 一 小 部 分 参与 者 来 精确 地 找 出 可 量化 的 差异 。 这 个 困难 是 
由 很 多 因素 决定 的 ， 比 如 任务 和 查询 对 于 系统 行为 的 巨大 影响 一 一 在 许多 搜索 系统 的 研究 
中 ， 无 论 是 交互 式 的 还 是 批 处 理 式 的 分 析 ， 任 务 上 的 差异 都 具体 表现 在 系统 和 参与 者 上 的 差 
异 。 另 一 个 间 题 是 人 们 提交 的 搜索 可 以 有 很 多 不 同 的 形式 ， 以 至 于 很 难 直 接 量化 地 比较 它们 
的 输出 。 最 后 ， 时 间 变 量 在 某 些 时 候 对 于 评价 交互 式 的 搜索 会 话 并 不 是 一 个 合适 的 指标 ， 因 
为 让 搜索 用 户 在 搜索 过 程 中 理解 他 们 的 主题 能 够 带 来 很 大 的 好 处 ， 但 是 这 可 能 会 比 其 他 设计 
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方案 花费 更 多 的 时 间 。 

面 对 这 些 问 题 ， 最 近 几 年 有 两 种 评价 搜索 界面 的 方法 开始 逐渐 流行 起 来 。 一 种 是 进行 纵 
向 研究 ， 意 思 是 参与 者 长 时 间 地 使 用 一 个 新 界面 ， 并 监控 和 记录 他 们 的 使 用 情况 [518， 
1471]。 评 价 是 基于 日 志 中 记录 的 客观 指标 以 及 对 参与 者 的 问卷 调查 和 当面 访谈 。 在 某 些 情 
况 下 ， 一 种 新 方法 的 优势 只 有 在 用 户 使 用 了 一 段 较 长 的 时 间 后 才 会 有 明显 的 感受 ， 所 以 只 有 
长 时 间 的 研究 才能 发 据 这 种 优势 。 例 如 ， 文 献 [862] 中 的 研究 发 现 ， 随 着 时 间 的 推移 ， 用 
户 会 根据 界面 相应 地 改变 他 们 的 搜索 模式 ， 该 研究 还 揭示 了 在 怎样 的 情况 下 新 的 特性 是 有 用 
的 ， 而 什么 时 候 它 们 是 不 需要 的 。 另 外 ， 开 始 很 吸引 人 的 界面 (比如 说 令 人 印象 深刻 的 图 
形 ) 随 着 时 间 的 推移 有 可 能 会 变 得 让 人 厌倦 ， 导 臻 我们 希望 重新 使 用 之 前 熟悉 的 界面 。 

在 过 去 几 年 里 流行 的 另 一 项 主要 评价 技术 是 在 使 用 率 较 高 的 网 站 上 进行 的 大 规模 实 
验 。 这 种 方法 经 常 称 为 水 桶 测试 (bucket testing), A/B 测试 ， 或 者 平行 航班 测试 〈paral- 
lel flights) [921]。 一 个 每 天 接收 到 成 于 上 万 其 至 是 几 百 万 个 查询 的 搜索 引擎 可 以 进行 以 
下 的 研究 ， 随机 选择 一 个 用 户 子 集 ， 向 他 们 展示 新 的 设计 ， 将 他 们 的 反应 和 同样 随机 选 
择 出 来 的 继续 使 用 现 有 界面 的 控制 组 用 户 进 行 对 比 [61，922，919]。 这 与 正式 的 可 用 性 
研究 不 同 ， 因 为 其 中 的 参与 者 并 不 晓得 自己 参与 了 这 项 研究 ， 网 站 会 在 被 挑选 出 来 的 访 
问 者 没有 了 解 和 同意 的 情况 下 向 他 们 显示 新 的 设计 《〈 大 多 数 网 站 的 用 户 协议 都 允许 这 类 
服务 ) 。 

这 种 形式 的 研究 通常 能 在 24 小 时 内 完成 ， 不 过 通常 建议 整个 流程 为 1 一 2 个 星期 。 有 些 
性 能 评价 ， 如 哪个 链接 被 点 击 等 ， 在 这 样 的 测试 中 是 尤其 有 信息 性 的 。 例 如 ， 显 示 查 询 建 议 
的 界面 可 以 和 不 显示 建议 的 界面 进行 对 比 ， 并 记录 下 查询 建议 被 点 击 的 频率 。 另 一 个 例子 
是 ， 在 文本 结果 列表 中 插入 多 媒体 结果 的 影响 ， 可 以 通过 周围 链接 点 击 情 况 的 变化 以 及 新 信 
息 被 点 击 的 频率 来 进行 评价 。 将 控制 条 件 下 和 实验 条 件 下 的 用 户 行为 进行 比较 ， 有 些 时 候 ， 
我 们 可 以 比较 ， 对 于 相同 的 查询 ， 分 别处 于 这 两 种 条 件 下 的 用 户 行为 ， 因 为 用 户 的 数量 是 如 
此 之 大 。 这 种 研究 的 一 个 潜在 缺点 是 有 些 熟 悉 网 站 的 控制 组 的 用 户 很 可 能 会 在 一 开始 对 他 们 
不 熟悉 的 界面 给 出 负面 的 反应 ， 所 以 有 些 研 究 会 在 评价 过 程 中 考虑 初始 反应 状态 的 因素 。 这 
项 技术 通常 也 没有 考虑 到 主观 信息 的 因素 ， 很 多 实验 会 通过 后 续 调查 来 研究 主观 的 反应 。 


2.6 趋势 和 研究 问题 


本 章 介 绍 了 很 多 关于 提高 用 户 搜寻 信息 时 的 人 机 交互 体验 的 方法 。 这 仍然 是 一 个 快速 发 
展 的 领域 ， 界 面 的 进步 很 有 可 能 会 带 来 更 好 的 搜索 结果 以 及 更 有 效 的 信息 创建 者 和 使 用 者 。 
未 来 最 重要 的 前 进 方 向 是 社交 搜索 、 移 动 搜 索 界 面 、 多 媒体 搜索 ， 以 及 面向 自然 语言 的 查 
询 ，Hearst [735] 曾 对 此 有 过 详细 的 论述 。 


2.7 文献 讨论 

Hearst 的 《Search User Interfaces) [735] 对 本 章 介绍 的 主题 进行 了 深入 的 讨论 。 另 一 
本 可 供 参 考 的 关于 信息 搜寻 行为 的 书 是 Marchionini 的 《Information Seeking in Electronic 
Environments) [1082], Lesk 的 《Understanding Digital Libraries) [1005] 也 有 对 搜索 界 
面 的 讨论 。 

也 有 很 多 关于 HCI 和 界面 设计 的 书 ， 包 括 Shneiderman 等 人 的 《Designing the User In- 
terface》[1472]，Kuniavsky 的 《Observing the User Experience; A Practitioner’s Guide to 
User Research》[948]。 一 本 古老 但 依旧 出 色 的 关于 用 户 界 面 评估 的 书 是 Nielsen 的 《Usability 
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Engineering) [1204], 

很 多 书 都 介绍 了 如 何 设计 网 站 ， 而 与 本 章 内 容 最 相关 的 书 是 Morville 和 Rosenfeld 的 
«Information Architecture for the World Wide Web) [1157] 第 3 版 ， 其 中 有 两 章 内 容 与 搜 
BAK. Kalback 的 《Designing Web Navigation, Optimizing the User Experience) [863] 
讨论 的 是 网 站 导航 的 设计 。 另 外 ， 有 许多 网 站 都 致力 于 可 用 性 和 用 户 界 面 设 计 的 研究 与 
讨论 。 

现在 有 很 多 非常 好 的 书 介 绍 如 何 利用 信息 的 可 视 化 进行 设计 ， 包 括 Few 的 《Now You 
See It: Simple Visualization Techniques for Quantitative Analysis》 和 《Information Dash- 
board Design: The Effective Visual Communication of Data) [562，563]， 以 及 Tufte 的 
«The Visual Display of Quantitative Information》[1605]， 不 过 这 些 书 并 不 是 只 关注 文本 或 
搜索 的 可 视 化 。 

更 多 关于 Web 搜索 引擎 界面 以 及 网 页 内 容 可 视 化 的 参考 文献 将 在 11.7 节 中 进行 介绍 。 
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信息 检索 建 模 


3. 1 信息 检索 模型 


信息 检索 中 的 建 模 是 一 个 以 产生 排序 函数 为 目标 的 复杂 过 程 。 该 排序 函数 能 根据 给 定 的 
查询 给 文档 打分 。 这 个 过 程 包含 两 项 主要 的 任务 : D 构想 出 表示 文档 和 查询 的 逻辑 框架 ; 
2) 定义 一 个 针对 给 定 查询 计算 文档 排名 的 排序 函数 。 这 个 逻辑 框架 通常 基于 集合 、 向 量 ， 
或 者 概率 分 布 。 它 直接 影响 了 文档 排名 的 计算 ， 这 些 排名 然后 被 用 来 对 给 定 查询 所 返回 的 文 
档 进 行 排序 。 

考虑 到 排序 可 能 是 检索 系统 中 最 重要 的 过 程 ， 我 们 将 广泛 、 深 入 地 讨论 信息 检索 建 模 。 
我 们 首先 确立 建 模 和 排序 之 间 的 关系 。 然 后 ， 我 们 形式 化 地 描述 检索 模型 ， 并 列 出 检索 模型 
的 分 类 体系 。 


3.1.1 建 模 和 排序 


如 第 2 章 所 述 ， 信 息 检索 系统 通常 采用 索引 项 来 索引 和 检索 文档 。 严 格 地 说 ， 一 个 索引 
项 是 一 个 关键 词 〈 或 者 一 组 相关 联 的 词 )， 可 以 独立 地 表达 某 种 意思 ， 通 常 扮 演 名 词性 的 角 
色 。 从 更 广义 的 形式 看 ， 索 引 项 可 以 是 文档 集 内 文档 正文 中 的 任何 一 个 词 。 

基于 索引 项 检索 的 主要 优势 是 可 以 高 效 地 实现 ， 并 且 可 以 简单 地 用 查询 进行 查阅 。 简 单 
性 是 重要 的 ， 因 为 这 减少 了 用 户 制定 查询 的 精力 。 然 而 ， 仅 用 几 个 词 来 表达 查询 意图 限制 了 
所 能 表达 的 语义 。 这 样 也 无 怪 乎 检索 出 的 文档 经 常 与 用 户 的 查询 不 相关 。 如 果 考 虑 到 大 部 分 
用 户 没 有 受过 如 何 合理 制定 查询 的 训练 ， 那 么 这 个 问题 会 由 于 这 些 隐患 而 变 得 更 糟 。 其 直接 
的 后 果 是 搜索 引擎 的 用 户 对 于 许多 查询 的 返回 结果 感到 不 满 。 

为 了 检索 出 查询 的 答案 ,任何 检索 系统 都 要 处 理 一 个 核心 问题 一 一 预测 哪些 文档 会 被 用 
户 看 做 是 相关 的 ， 哪 些 会 被 他 们 看 做 是 不 相关 的 。 这 个 问题 本 来 就 困难 。 而 且 ， 由 于 不 同 的 
用 户 可 能 对 于 何 为 相关 、 何 为 不 相关 有 各 自 的 看 法 ， 因 此 这 个 问题 自然 地 包含 了 一 定 程度 的 
不 确定 性 和 模糊 性 。 对 于 这 种 情况 ， 系 统 要 实现 一 个 预测 算法 ， 希望 该 算法 能 和 大 部 分 用 户 
对 大 部 分 查询 与 答案 相关 与 否 的 看 法 相似 。 这 个 预测 算法 基本 上 就 是 排序 函数 ， 用 来 对 检 出 
文档 建立 一 个 简单 的 排序 ， 排 在 前 面 的 文档 更 有 可 能 是 相关 的 。 所 以 排序 函数 是 检索 系统 的 
核心 。 

排序 算法 是 根据 文档 相关 性 这 一 概念 的 基本 前 提 来 执行 的 。 关 于 文档 相关 性 的 不 同 前 
提 条 件 会 产生 不 同 的 检索 模型 。 正 如 我 们 在 这 里 讨论 的 ， 所 采用 的 信息 检索 模型 决定 了 
什么 是 相关 的 、 什 么 是 不 相关 的 《例如 ， 系 统 所 实现 的 相关 性 概念 ) 。 我 们 的 讨论 包括 了 
过 去 数 年 中 提出 的 各 种 关键 的 信息 检索 模型 ， 为 本 书 中 其 余 大 部 分 章节 提供 了 概念 性 的 
基础 。 


3.1.2 信息 检索 模型 描述 


信息 检索 模型 是 由 形成 排序 算法 的 基础 前 提 决 定 的 。 我 们 的 描述 如 下 。 
定义 ”一 个 信息 检索 模型 是 一 个 四 元 组 [D, Q, F, Reg, dj], $F 
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D D 是 文档 集中 文档 的 逻辑 视图 (或 表示 ) 的 集合 。 

2) Q 是 用 户 信 息 需 求 的 还 辑 视图 (或 表示 ) 组 成 的 集合 。 这 些 表示 称 为 查询 。 

3) 下 是 一 个 对 文档 、 查 询 及 其 关系 建 模 的 框架 ， 例 如， 集合 与 布尔 关系 、 向 量 与 线性 
代数 运算 、 样 本 空间 与 概率 分 布 。 

4) Rq: dj) 是 排序 函数 ， 对 查询 表达 式 g; EQ 和 文档 表达 式 di ED 赋予 一 个 实数 。 
排序 函数 定义 了 关于 查询 g; 的 文档 次 序 。 

为 了 建立 信息 检索 模型 ， 我 们 首先 考虑 文档 的 表示 形式 和 用 户 信息 需求 的 表示 形式 。 对 
于 一 篇 文档 ， 其 表示 形式 可 以 是 这 篇 文档 内 所 有 词语 的 子 集 ， 例 如 可 以 通过 从 文档 中 去 除 禁 
用 词 〈 例 如 冠 词 和 介词 ) 获得 。 对 于 查询 ， 其 表示 形式 可 以 是 查询 词 的 超 集 ， 例 如 可 以 通过 
对 原始 查询 增加 同义词 获得 。 给 定 了 这 些 表示 形式 之 后 ， 我 们 接着 为 它们 构想 建 模 框架 。 这 
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个 框架 也 要 能 提供 构建 排序 函数 的 直观 构想 。 例 如 ， 对 于 经 典 的 布尔 模型 ， 这 个 框架 由 文档 [58] 


集 与 在 这 组 集合 上 的 标准 运算 组 成 。 对 于 经 典 的 向 量 模型 ， 这 个 框架 由 上 维 向 量 空间 、 查 询 
和 文档 的 向 量 表示 形式 ， 以 及 在 这 之 上 的 标准 线性 代数 运算 组 成 。 对 于 经 典 的 概率 模型 ， 这 
个 框架 由 词 在 文档 和 查询 上 的 概率 分 布 ， 以 及 贝 叶 斯 (Bayes) 定理 组 成 。 正 如 本 章 中 一 直 
讨论 的 ， 当 这 个 框架 构建 好 后 ， 就 需要 确定 一 个 排序 函数 。 

给 定 一 个 查询 和 文档 的 表示 形式 ， 例 如 q Md;, 查询 表示 
排序 函数 R(qis d;) 给 查询 qi 所 对 应 的 文档 d; 赋予 qi 
一 个 排名 《〈 一 个 实数 )。 这 个 过 程 如 图 3-1 HAR. YE 查询 
意 ， 在 我 们 的 讨论 中 ， 我 们 使 用 符号 9 表示 查询 及 其 


表示 形式 ， 用 符号 di 表示 文档 及 其 表示 形式 。 ; 
在 本 章 的 其 余部 分 ， 我 们 讨论 各 种 不 同 的 信息 检 TERA 


索 模 型 。 在 讨论 中 ， 我 们 不 会 显 式 地 举 出 每 个 模型 的 文档 
成 分 : D, Q, FRA R(g;，d;)。 这 些 成 分 在 讨论 中 是 图 3-1 HERA RG, d) 用 查询 和 
相当 清楚 的 ， 并 可 以 容易 地 推导 得 到 。 文档 的 表示 形式 作为 输入 ， 给 


文档 必 赋予 关于 查询 9 的 排名 
3.1.3 信息 检索 模型 的 分 类 体系 


信息 检索 模型 主要 基于 文本 ， 即 它们 根据 文档 的 正文 来 对 查询 的 相关 文档 进行 排序 。 然 
而 ,在 Web 中 ， 也 需要 使 用 网 页 上 的 链接 结构 来 获得 好 的 排序 。 另 一 方面 ， 多 媒体 对 象 和 
正文 文档 编码 的 方法 很 不 一 样 。 图 像 编 码 为 像素 的 位 图 ， 视 频 对 象 编码 为 关于 图 像 的 时 间 
流 ， 语 音 对 象 编 码 为 关于 声音 的 离散 流 。 由 于 其 表示 形式 的 特殊 性 ， 多 媒体 对 象 的 排序 与 文 
本 很 不 一 样 ， 或 者 说 检索 时 不 用 排序 。 针 对 这 些 特 点 ， 我 们 区 别 三 种 主要 的 信息 检索 模型 : 
基于 文本 、 基 于 链接 和 基于 多 媒体 对 象 的 模型 。 

图 3-2 说 明了 我 们 对 信息 检索 模型 和 多 媒体 检索 方法 的 分 类 体系 。 对 于 基于 文本 的 模 
型 ， 我 们 将 其 分 为 用 于 无 结构 文本 的 模型 和 考虑 文本 结构 的 模型 。 在 第 一 类 中 ， 文 本 仅仅 建 
模 为 词语 的 序列 。 在 第 二 类 中 ， 文 本 的 结构 化 成 分 ， 例 如 标题 、 节 、 子 节 和 篇 章 ， 是 模型 束 
体 的 一 部 分 。 因 为 也 包含 了 无 结构 的 文本 ， 所 以 这 些 通常 称 为 半 结 构 。 对 于 无 结构 文本 ， 信 
息 检 索 中 的 三 个 经 典 模型 是 布尔 模型 、 向 量 模型 和 概率 模型 。 在 布尔 模型 中 ， 文 档 和 查询 表 
示 成 索引 项 的 集合 。 这 样 ， 如 [683] 提出 的 ， 我 们 说 这 个 模型 是 基于 集合 论 的 。 在 向 量 模 
型 中 ， 文 档 和 查询 表示 成 i 维 空间 里 的 一 个 向 量 。 因 此 ， 我们 说 这 个 模型 是 基于 代数 的 。 在 
概率 模型 中 ， 用 来 对 文档 和 查询 建 模 的 框架 是 基于 概率 论 的 。 因 此 ， 我 们 说 这 个 模型 是 基于 
概率 论 的 。 





Rq, d) 
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图 3-2 IR 模型 的 分 类 体系 


多 年 来 ， 研 究 人 员 已 经 提出 了 基于 经 典 模型 〈 即 集合 论 、 代 数 和 概率 论 ) 的 其 他 检索 模 
型 。 对 于 其 他 的 集合 论 模 型 ， 我 们 将 其 分 为 模糊 、 扩 展 布尔 和 基于 集合 的 模型 。 其 他 的 代数 
模型 ， 我 们 将 其 分 为 广义 向 量 、 湾 在 语义 索引 和 神经 网 络 模型 。 对 于 其 他 的 概率 模型 ， 我 们 
将 其 分 为 BM25、 贝 叶 斯 网 、 随 机 差异 模型 和 语言 模型 。 所 有 这 些 模型 在 本 章 中 都 详细 
讨论 。 

对 于 半 结 构 化 文本 检索 模型 〈 即 考虑 文本 中 的 结构 )， 我 们 考察 索引 方法 ， 例 如 邻近 结 
点 和 基于 XML 的 索引 方法 。 这 些 都 涵盖 在 第 13 章 中 。 

在 Web 中 ， 由 于 文档 (或 者 网 页 ) 数量 巨大 ， 只 基于 文本 的 排序 是 不 够 的 ， 所 以 有 必 
要 考察 将 网 页 之 间 的 链接 作为 模型 的 组 成 部 分 。 这 些 促进 了 基于 链接 的 检索 模型 的 发 展 ， 尤 
其 是 我 们 将 在 第 11 章 中 讨论 的 PageRank [263] 和 Hubs & Authorities [911], 

多 媒体 数据 的 检索 采用 一 套 截然 不 同 的 检索 策略 。 例 如 ， 假 设 对 于 一 幅 图 像 ， 它 表示 为 
一 个 位 的 集合 ， 用 来 描述 像素 的 颜色 和 亮度 ， 这 些 信息 对 于 理解 用 户 可 能 需要 怎样 的 图 像 没 
有 直接 的 关系 。 为 了 检索 出 让 用 户 感 兴趣 的 图 像 ， 有 必要 采取 一 系列 搜索 文档 集 所 使 用 不 到 
的 中 间 步 又 。 例 如 ， 用 户 可 能 不 是 写 出 查询 ， 而 是 提交 一 幅 给 定 的 图 像 来 表达 信息 需求 。 这 
幅 查询 图 像 可 以 和 数据 集中 的 图 像 进行 比较 来 找到 相关 的 图 像 。 这 个 方法 是 非常 不 稳定 的 ， 
因为 像素 级 上 的 共性 可 能 有 很 大 的 误导 性 。 有 许多 更 复杂 的 方法 来 处 理 这 个 问题 ， 正 如 第 
14 章 中 所 讨论 的 。 重 要 的 是 ， 对 多 媒体 检索 的 方法 与 文本 的 信息 检索 模型 相差 甚 远 。 举 例 
来 说 ， 许 多 多 媒体 检索 模型 不 包含 任何 形式 的 排序 。 因 此 ， 它 们 在 图 3-2 中 被 单独 列 出 来 ， 
我 们 称 之 为 检索 策略 。 

多 媒体 检索 最 简单 的 形式 是 图 像 检索 ， 因 为 图 像 是 静态 的 。 对 于 音频 和 视频 来 说 ， 多 媒 
体 对 象 的 表达 形式 也 必须 包含 时 间 维 度 ， 这 使 得 这 些 文件 更 加 巨大 ， 问 题 更 加 困难 。 图 像 、 
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音频 和 视频 在 第 14 章 中 详细 讨论 。 

由 于 信息 检索 模型 的 主要 目的 是 产生 一 组 和 用 户 相关 的 答案 ， 因 此 现代 信息 检索 系统 的 
实现 方案 包含 了 不 同 信息 检索 模型 的 特征 ， 而 不 仅 是 一 种 。 例 如 ， 如 今 的 Web 排序 函数 结 
合 了 经 典 的 信息 检索 模型 和 基于 链接 模型 的 特征 来 提高 检索 性 能 。 


3.2 经 典 信息 检索 


在 本 节 中 ， 我 们 列 出 信息 检索 中 的 三 种 经 典 的 模型 ， 也 就 是 布尔 模型 、 向 量 模型 和 概率 
模型 。 在 布尔 模型 中 ， 索 引 项 不 带 任何 权重 ， 它 们 仅 是 集合 中 的 元 素 。 在 向 量 模型 和 概率 模 
型 中 ， 索 引 项 有 权重 ， 用 于 提高 排序 质量 。 


3. 2.1 基本 概念 


1. 索引 项 或 者 关键 词 

信息 检索 中 的 经 典 模型 认为 每 篇 文档 应 描述 为 一 个 集合 ， 该 集合 包含 具有 代表 性 的 关键 
词 ， 这 些 词 称 为 索引 项 。 

定义 ”一 个 索引 项 是 文档 中 的 一 个 词 或 者 一 组 连续 的 词 。 索 引 项 的 最 普遍 形式 是 集合 中 
任意 一 个 词 。 这 是 搜索 引擎 设计 人 员 采 用 的 方法 。 从 更 严格 的 意义 上 说 ， 索 引 项 是 一 组 预选 
的 词 ， 表 示 文 档 中 的 关键 概念 或 主题 。 这 是 图 书馆 员 和 信息 科学 家 采用 的 方法 。 

举例 来 说 ， 一 组 预选 的 索引 项 可 以 用 来 概括 文档 的 内 容 。 在 这 种 情况 下 ， 它 们 主要 是 
名 词 ， 或 者 名 词组 ， 这 是 因为 名 词 本 身 含 有 意义 。 形 容 词 、 副 词 和 连词 作为 索引 项 用 处 
不 大 ， 它 们 主要 作为 补 语 。 然 而 ， 如 果 需 要 匹配 文档 中 任意 的 词 或 者 词语 序列 ， 那 么 有 
必要 考虑 把 集合 内 所 有 不 同 的 词 作为 索引 项 。Web 搜索 引擎 采用 这 种 方法 ， 我 们 在 第 11 
章 中 讨论 。 

定义 ”假设 上 是 文档 集中 索引 项 的 数量 ， 睫 ZEA KINA. Veh, k s k) AL 
档 集 中 所 有 不 同 索 引 项 的 集合 ， 通 常 称 为 文档 集 的 词汇 表 V。 词 汇 表 的 大 小 是 i。 

词汇 表 是 文档 集 的 一 个 重要 组 成 部 分 ， 它 确定 了 所 有 的 索引 项 。 随 着 文档 集 的 增长 ， 词 
汇 表 的 大 小 也 会 增长 ， 这 是 由 拼写 错误 、 不 同形 式 的 数字 、 各 种 不 同 的 ID 符号 和 首 字 母 缩 
写 词 这 些 因 素 造 成 的 。 在 Web 中 尤其 如 此 ， 我 们 会 在 第 11 章 中 讨论 。 

2. 文档 和 查询 的 表示 形式 

文档 和 查询 在 信息 检索 系统 中 通过 文档 和 查询 的 表示 形式 来 建 模 ， 如 图 3-1 所 示 。 我 们 
现在 把 这 个 概念 形式 化 。 

ENX PAR, V=, ko e, k) 是 文档 集 的 词汇 表 。 如 果 有 三 个 索引 项 ki 
ks 和 上 ,出 现在 同一 篇 文档 d; 中 ,我 们 说 观察 到 索引 项 共 现 模式 [kis kus kile E-A 
大 小 为 1 的 词汇 表 VV 来 说 ， 在 文档 集 内 出 现 的 索引 项 共 现 模式 的 总 量 是 2 。 举 例 来 说 ， 模 式 
(1，0，…，0) ARLA RIA kh 出现 而 没有 其 他 项 。 模 式 (1，1，…，1) 表示 所 有 的 索 
引 项 均 出 现 。 每 一 个 索引 项 共 现 模式 称 为 一 个 索引 项 合 取 分 量 。 对 于 文档 d)， 我 们 给 予 一 
个 索引 项 合 取 分 量 cl(d;)， 用 以 描述 哪些 索引 项 出 现在 文档 中 ， 哪 些 没有 。 类 似 地 ， 对 于 一 
个 查询 g9， 我 们 给 予 一 个 索引 项 合 取 分 量 c(qg) ， 用 以 描述 哪些 索引 项 出 现在 查询 中 ， 哪 些 没 
HR. ENASRDPE cd) 提供 了 文档 d; 在 系统 中 的 表示 形式 ， 索 引 项 合 取 分 量 c(9) 提供 
了 查询 g 在 系统 中 的 表示 形式 。 

在 这 种 情况 下 ， 查 询 和 文档 仅仅 由 索引 项 合 取 分 量 表示 ， 它 反映 了 它们 包含 的 索引 项 。 
这 是 可 采取 的 最 简单 的 表示 形式 ， 经 常 称 为 词 袋 法 〈bag of words). 正如 我 们 之 后 将 看 到 
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的 ， 信 息 检 索 模 型 需要 采用 更 加 复杂 的 查询 和 文本 表示 形式 来 改善 检索 结果 。 
3. 项 -文档 矩阵 
索引 项 在 文档 中 的 出 现 建立 了 索引 项 和 文档 之 间 的 关系 。 这 些 项 -文档 关系 能 被 量化 ， 


[62] 例如 ， 索引 项 在 文档 中 出 现 的 频率 。 以 矩阵 的 形式 可 以 写 为 


da d 
kı fia fi 
ky Fra Foa 
k; Fa Fae 








其 中 ， 每 一 项 fi..; 表 示 索 引 项 k; 在 文本 d; 中 出 现 的 频率 。 相 比 于 记录 这 个 索引 项 是 否 出 现 
在 文档 中 ， 使 用 出 现 频率 来 量化 项 -文档 之 间 的 关系 可 以 提供 更 多 的 信息 。 当 然 ， 这 是 一 种 
简单 的 方法 ， 更 复杂 的 方法 将 在 我 们 引入 了 项 权重 的 概念 后 再 讨论 。 

4. 文档 的 逻辑 视图 

索引 项 可 以 直接 从 文档 的 正文 中 抽取 出 来 ， 也 可 以 由 图 书馆 员 和 信息 科学 家 等 专家 来 确 
定 。 无 论 这 些 具 有 代表 性 的 索引 项 是 自动 生成 的 ， 还 是 由 某 个 专家 建立 的 ， 它 们 都 提供 了 一 
种 文档 的 逻辑 视图 。 

现代 计算 机 使 得 一 篇 文档 可 以 用 其 包含 的 所 有 词 来 表示 。 这 样 的 话 ， 我 们 说 这 个 检索 系 
统 采用 了 文档 的 全 文 文本 逻辑 视图 (或 者 表示 形式 )。 然 而 ， 对 于 规模 巨大 的 文档 集 ， 人 们 
可 能 关注 如 何 减 小 代表 性 关键 词 集合 的 规模 。 这 可 以 通过 禁用 词 去 除 (例如 冠 词 和 连词 )、 
词 干 提取 (把 不 同 的 单词 简化 为 它们 共有 的 语法 根 形式 ) 和 名 词组 识别 (这 可 去 除 形 容 词 、 
副词 和 动词 ) 的 操作 来 达到 。 而 且 ， 还 可 以 运用 压缩 。 这 些 在 正文 上 的 操作 (也 称 为 文本 转 
换 ) 在 6. 6 节 中 会 详细 讨论 。 它 们 减少 了 文档 表示 形式 的 复杂 性 ， 并 把 逻辑 视图 从 全 文 转化 
为 索引 项 集合 。 

全 文 是 一 个 文档 最 完整 的 逻辑 视图 ， 但 采用 这 种 方式 通常 意味 着 更 高 的 计算 代价 。 由 专 
家 定义 的 一 小 组 类 别提 供 了 一 篇 文档 最 精准 的 逻辑 视图 ， 为 文档 的 表示 添加 了 一 个 语义 层 。 
然而 ， 用 人 工 生成 的 类 别 来 建 索引 通常 会 影响 召回 率 ， 并 可 能 导致 一 个 糟糕 的 搜索 体验 ， 尤 
其 当 用 户 不 是 熟悉 这 个 文档 集 的 专家 时 。 如 图 3-3 所 示 ， 信 息 检索 可 以 采用 多 个 文档 的 中 间 
逻辑 视图 。 除 了 采用 其 中 的 某 种 中 间 表 示 形 式 外 ， 检 索 系 统 也 会 识别 出 文档 通常 具有 的 内 部 
结构 (例如 ， 章 、 节 、 子 节 )。 也 就 是 说 ,我 们 可 以 把 逻辑 化 表示 文档 的 问题 看 做 一 个 〈( 离 
散 的 ) 连续 统一 体 ， 其 中 文本 的 逻辑 视图 (平滑 地 ) 从 全 文 的 表示 形式 转变 为 由 专家 定义 的 
主题 所 组 成 的 更 精准 的 表示 形式 。 








图 3-3 文档 的 逻辑 视图 : 从 全 文 到 索引 项 集合 
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上 述 的 定义 提供 了 讨论 三 种 经 典 信息 检索 模型 的 基础 ， 也 就 是 现在 我 们 要 讨论 的 布尔 模 
型 、 向 量 模型 和 概率 模型 。 


3.2.2 布尔 模型 


布尔 模型 (Boolean Model) 是 一 个 基于 集合 论 和 布尔 代数 的 简单 模型 。 因 此 ， 该 模型 
非常 直观 并 有 准确 的 语义 含义 。 考 虑 到 其 固有 的 简洁 形式 ， 布 尔 模型 过 去 受到 了 大 量 的 关 
注 ， 并 被 许多 早期 的 商业 文献 目录 系统 采用 。 

布尔 模型 考察 的 是 索引 项 是 否 出 现在 文档 中 ， 也 就 是 说 项 -文档 矩阵 中 的 项 -文档 频率 都 
是 二 值 的 。 查 询 g 由 三 种 操作 符 所 连接 起 来 的 索引 项 构成 : JE (not)、 与 Cand), R (or) 
(注意 : 考虑 到 补 运算 是 代价 昂贵 的 ， 出 于 效率 的 原因 ， 系 统 可 能 选择 使 用 一 个 “ 减 ” 操 
作 ， 而 不 是 “ 非 ” 操 作 ) 。 这 样 ， 从 本 质 上 看 ， 查 询 是 传统 的 基于 索引 项 的 二 值 表 示 ， 如 
下 所 示 。 

定义 ”在 布尔 模型 中 ， 所 有 的 项 -文档 托 阵 的 元 素 或 者 是 1， 表 示 这 个 索引 项 出 现在 这 个 文 
档 中 ; 或 者 是 0， 表示 这 个 索引 项 不 出 现在 文档 中 。 查 询 g 是 一 个 基于 索引 项 的 布尔 表达 式 ， 例 
如 , [q= k, A (&V 一 k)] 。 对 于 给 定 查 询 ， 满 足 其 条 件 的 索引 项 合 取 分 量 称 为 查询 合 取 分 量 
c(q)。 综 合 所 有 的 查询 合 取 分 量 ， 我 们 可 以 把 查询 重 写 为 一 个 由 这 些 合 取 分 量 组 成 的 析 取 表达 式 。 
这 称 为 查询 析 取 范式 ， 我 们 用 Gone 表示 。 

举例 来 说 ， 重 新 考察 查询 q= ke A (kV 一 &.)j]， 
并 假定 文档 集 的 词汇 表 是 V={&k。，k，k.}， 查 询 g 可 以 
写 做 析 取 范式 Cow =C, 1, DV, 1, OVA, 0, 
0)]， 如 图 3-4 所 示 。 现 在 考虑 包含 索引 项 ka Mk, (AR 
BE k 的 文档 d;。 它 的 索引 项 合 取 分 量 cd) 是 (1， 
0,1), 不 是 govr 的 成 分 ， 不 满足 查询 要 求 。 所 以 我 们 说 
文档 必 不 满足 查询 q. 

即使 当 文 档 集 的 词汇 表 包 含 不 在 查询 中 的 词 ， 这 种 方 
法 也 可 行 。 举 例 来 说 ， 考 察 当 词汇 表 是 了 = (kas hes keo 
ka} 时 ， 仅 包含 索引 项 kh。 、k。 Mk. 的 文本 d; 表示 成 索引 


图 3-4 查询 [q=k, A (ks VR) J 
项 合 取 式 (1，1，1，0)。 而 且 ， 查询 [g==& A Cki V> k.)] 的 三 个 合 取 分 量 


表示 成 析 取 范式 


gover = (1,1,1,0) V (1,1,1,1) V (1,1,0,0) V (1,1,0,1) V (1,0,0,0) V (1,0,0,1) 
也 就 是 说 ， 当 索引 项 &s 没有 在 查询 中 定义 时 ， 该 项 是 否 存 在 于 合 取 分 量 中 都 被 考虑 到 了 。 
因此 ， 满 足 查询 的 条 件 不 变 。 若 文档 满足 包含 查询 项 的 条 件 ， 那 么 就 存在 一 个 查询 合 取 分 量 
可 以 和 文档 合 取 分 量 匹配 。 简 单 起 见 ， 在 本 书 中 ， 我 们 把 合 取 分 量 的 表示 形式 限制 在 明确 出 
现在 查询 中 的 索引 项 上 。 
定义 ”在 布尔 模型 中 ， 查 询 g 是 传统 的 基于 索引 项 的 布尔 表达 式 。 设 c(9) 是 任意 的 查 

HARTE., AELH dj Keld) 是 对 应 的 文档 合 取 分 量 。 那 么 文档 di 和 查询 g 之 间 的 
相似 度 定 义 为 

1 Aclg)|c(g) = c(d;) 

sim(d;.q) = TE (3-1) 
车 sima(dij ，9q) 一 1， 那 么 布尔 模型 断定 文档 d; 和 查询 g 是 相关 的 (事实 上 可 能 不 是 这 样 ); 
和 否则， 断定 文档 是 不 相关 的 。 
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布尔 模型 断定 每 篇 文档 要 人 么 相关 ， 要 人 么 不 相关 ， 没 有 部 分 相关 的 说 法 。 例 如 ， 设 d; 是 一 
WX cd, =A, 0, 1). XH d 包含 了 索引 项 k， 但 是 认为 和 查询 [g 二 kA 人 (kV 一 k.)] 不 
相关 。 这 种 没有 分 级 度量 概念 的 二 元 决策 标准 无 法 取得 良好 的 检索 质量 。 而 且 ， 尽管 布尔 模 
型 有 准确 的 语义 含义 ， 但 是 把 信息 需求 转化 为 布尔 表达 式 通常 并 不 容易 。 实 际 上 ， 大 部 分 用 
户 觉 得 用 布尔 表达 式 表示 查询 需求 既 困 难 又 别扭 。 结 果 ， 由 用 户 编写 的 布尔 表达 式 通常 是 非 
常 简单 的 。 

布尔 模型 的 主要 优点 是 其 模型 背后 的 简洁 形式 和 其 由 于 采用 二 值 索 引 项 权重 带 来 的 简单 
性 。 它 主要 的 缺点 是 没有 排序 ， 这 会 导致 检 出 太 少 或 者 太 多 的 文档， 并 且 对 大 部 分 用 户 而 
言 ， 编 写 布尔 查询 是 繁琐 的 。 如 今 ， 大 家 都 知道 索引 项 权重 可 以 带 来 检索 质量 的 大 幅 提 升 ， 
我 们 接着 讨论 。 


3.2.3 项 权重 


给 定 某 篇 文档 的 索引 项 集合 ， 我 们 注意 到 索引 项 在 描述 文档 内 容 时 不 是 同等 重要 。 实 
际 上 ， 有 些 索 引 项 比 另 一 些 不 明确 。 确 定 索引 项 在 多 大 程度 上 概括 文本 的 内 容 并 不 容易 。 
尽管 困难 ， 但 索引 项 有 一 些 性 质 是 容易 通过 度量 获得 的 ， 也 有 助 于 评价 项 的 重要 性 。 举 
例 来 说 ， 考 虑 一 个 含有 10 万 篇 文档 的 文档 集 。 在 这 10 万 篇 文档 中 ， 把 在 每 篇 文档 中 都 出 
现 的 词 作为 索引 项 是 没有 用 的 ， 因 为 这 个 词 没 有 告诉 我 们 关于 用 户 对 哪 篇 文档 感 兴趣 的 
任何 信息 。 相 反 ， 一 个 只 在 文档 集中 5 篇 文档 中 出 现 的 词 是 非常 有 用 的 ， 因 为 它 极 大 地 缩 
小 了 用 户 关注 的 文档 集合 的 范围 。 这 样 ， 大 家 就 明白 不 同 的 索引 项 在 用 于 描述 文档 内 容 
时 有 不 同 的 重要 程度 。 这 一 效果 可 以 通过 给 文档 中 每 个 不 同 的 索引 项 赋 一 个 数值 权重 来 
达到 。 

定义 为 了 表征 索引 项 的 重要 性 ， 可 以 赋予 文档 集中 每 个 文档 十 的 索引 项 &; 一 个 权重 
Wigs Wi 0. 当 索 引 项 ki 不 存在 于 文档 中 时 ， wij; 一 0。 

权重 rw, 量化 了 索引 项 在 描述 文档 内 容 方面 的 重要 性 。 针 对 给 定 查询 ， 对 索引 项 赋 权 重 
可 赋予 每 篇 文档 一 个 数值 排名 ， 从 而 改善 检索 结果 。 

为 了 生成 索引 项 的 权重 ， 我 们 考察 该 项 对 于 描述 某 一 篇 文档 或 者 文档 集中 的 一 组 文档 有 
多 大 作用 。 我 们 用 一 个 例子 进一步 说 明 。 假 设 有 一 组 关于 John Lennon 的 文档 ， 并 假定 有 
1000 篇 这 样 的 文档 。 如 果 用 户 设 定 了 查询 “John Lennon”， 我 们 怎样 对 文档 排序 ， 使 用 户 对 
排 在 前 面 的 文档 更 感 兴趣 ? 答案 是 ， 在 没有 额外 信息 的 情况 下 ， 我 们 无 法 对 文档 进行 排序 。 
对 于 这 个 特别 的 集合 ， 由 用 户 提交 的 查询 完全 不 包含 任何 有 价值 的 信息 。 我 们 说 关于 查询 的 
信息 量 是 零 。 

这 个 独特 的 例子 没有 解释 如 何 设计 排序 算法 ， 但 是 清楚 说 明了 关于 索引 项 权重 的 一 个 重 
要 观点 ， 即 不 同 的 索引 项 不 是 同等 重要 的 ， 应 该 有 不 同 的 权重 。 而 且 ， 权 重 受到 文档 集中 文 
档 的 影响 。 为 了 说 明 项 权重 的 重要 性 ， 我 们 计算 的 权重 必须 反映 索引 项 在 文档 集中 的 重要 
性 ， 以 及 索引 项 在 每 篇 文档 中 的 重要 性 。 这 些 权 重 依赖 于 索引 项 在 文档 中 出 现 的 频率 ， 我 们 
的 定义 如 下 所 示 。 

定义 设 fj 是 索引 项 k; 在 文档 di 中 出 现 的 频率 ， 即 索引 项 出 现在 文档 di 正文 中 的 
次 数 。 索 引 项 在 文档 集中 出 现 的 总 频率 下 ; 是 该 索引 项 在 所 有 文档 出 现 频率 的 总 和 。 


F= X fis l (3-2) 
其 中 ，NN 是 文档 集中 文档 的 数量 。 索 引 项 k 的 文档 频率 是 包含 该 项 的 文档 的 数量 ， 用 ni 表 
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示 。 注 意 a<Fio 

项 间 相 关 性 

在 我 们 的 讨论 中 ,假设 索引 项 权重 之 间 是 相互 独立 的 。 这 意味 着 知道 二 元 组 (ki dj) 
的 权重 wi,j 无 法 告诉 我 们 二 元 组 (Ri+1， d;) 的 权重 Witlgo 这 明显 是 一 种 简化 ， 因为 文档 内 
出 现 的 索引 项 之 间 不 是 毫 无 关联 的 。 举 例 来 说 ， 假 设 索 引 项 “计算 机 ”和 “网 络 ” 被 用 来 对 
关于 计算 机 网 络 的 文档 进行 索引 。 在 文档 中 ， 其 中 一 个 词 的 出 现 通常 会 跟着 另 一 个 词 。 这 
样 ， 它 们 是 相互 关联 的 ， 并 且 其 权重 应 该 反映 这 种 相关 性 。 

考虑 索引 项 间 的 相关 性 ， 我 们 能 计算 一 个 相关 性 矩阵 ， 如 图 3-5 所 示 。 其 中 关键 的 概念 
如 下 所 述 。 

定义 KRM=([m,;) 是 一 个 上 行 凡 列 的 项 -文档 短 阵 ， 其 中 mi 一 zj， 即 矩阵 中 的 每 
一 元 素 订 由 项 -文档 二 元 组 (ki d) 的 权重 给 出 。 给 定 MT AHEM HHE, BHCH 
M MT 是 一 个 项 间 相 关 性 纸 阵 。 每 一 元 素 cevEC 表 达 了 索引 项 A, Pk, ZAHRA, wF 
所 示 。 

Ce 一 Sw X Wy, ; 

项 间 相 关 性 矩阵 C 建立 了 任意 两 个 索引 项 Mk. 之 间 的 关系 ， 如 图 3-5 所 示 ， 这 是 基 

于 它们 在 文档 集中 联合 出 现 的 情况 确定 的 。 这 个 关系 由 相关 系数 cv 来 量化 。 文 档 中 索引 项 


k, Mk, 共 现 的 次 数 越 高 ， 它 们 的 相关 性 就 越 高 。 而 且 ， 我 们 能 利用 文档 内 索 引 项 之 间 的 距 
离 来 改进 项 间 相 关 性 的 估计 。 其 目的 是 文档 中 距离 相近 的 项 相 比 于 距离 远 的 项 有 更 强 的 联 


系 。 更 详细 的 内 容 可 参考 第 5 章 中 关于 计算 项 间 相 关 性 的 三 种 不 同方 法 。 
d, d, ki k, k, 
ki Wl Wi d 
k, Wr, Wyz 1 | WW Wl | 
k; Wsi Wap d, Wa W Wya 
M x Mm 
SSS 
4 
k k k, 
k, WW) + Wy 212 WW) +) W272 Wy Wy) + W, 232 
k, WaWa F WaWa Wy Wy, + WaWa Wy Wy, + W225. 
k, W3 W1 + W322 Ws (Wz) + Ws W32 Wy Wy, + W310 2 
项 间 相 关 性 矩阵 


图 3-5 在 仅 有 两 篇 文档 和 三 个 索引 项 的 小 规模 样 例文 档 集 上 的 
项 -文档 矩阵 、 转 置 矩 阵 ， 以 及 项 间 相 关 性 矩阵 


鉴于 项 间 相 关 性 有 多 种 计算 方法 ， 不同 的 信息 检索 模型 尝试 利用 这 一 关系 。 其 中 包括 广 
义 向 量 模 型 、 模 糊 信 息 检 索 模型 、 基 于 和 集合 的 模型 和 语言 模型 ， 我 们 将 在 后 面 的 章节 中 讨 
论 。 在 这 种 情况 下 ， 像 大 部 分 的 信息 检索 模型 那样 ， 索 引 项 的 独立 性 假设 似乎 是 一 种 过 分 的 
简化 。 然 而 ， 索 引 项 独立 性 的 确 简化 了 项 权重 的 计算 ， 使 得 排序 过 程 变 快 了 。 此 外 ， 利 用 索 
引 项 之 间 的 相关 性 来 提高 最 终 的 排序 不 是 一 项 简单 的 工作 。 举 例 来 说 ， 人 们 对 索引 项 独立 性 
对 于 一 般 的 文档 集 有 多 大 用 处 没有 共识 。 因 此 ， 除 非 清 楚 地 说 明 ， 否 则 我 们 假设 索引 项 是 相 
互 独立 的 。 

对 于 项 权重 ， 主 要 的 计算 方法 最 早 是 由 Sparck Jones [1504] 和 Salton 和 Yang [1418] 
提出 。 他 们 的 工作 出 于 经 验 性 的 实验 ， 并 获得 了 有 效 的 称 为 TF-IDF 的 项 权重 框架 。 
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3.2.4 TF-IDF 权重 


项 频 (Term Frequency, TF) 和 反比 文档 频率 (Inverse Document Frequency, IDF) 
是 信息 检索 系统 中 最 常见 的 项 权重 框架 ， 称 为 TF-IDF， 我 们 接 下 来 讨论 。 

1. 项 频 权重 

EX Lun RR. RIA k 在 文档 dd 中 的 价值 ， 或 者 说 权重 ， 应 该 与 项 频 fi RE 
比 。 也 就 是 说 ,项 ki 在 文档 dj 的 正文 中 出 现 越 多 ， 则 其 项 频 权 重 TF, LAB. 

这 个 假设 基于 以 下 的 观察 ， 即 高 频 项 对 描述 文档 的 关键 主题 是 重要 的 ， 它 直接 引出 如 下 
的 TF 权重 公式 : 


thi; = faj (3-3) 
在 文献 中 采用 的 TF 权重 的 变种 是 
l+logfi,; fi;>0 
thi = L 其 他 (3-4) 


其 中 log 以 2 为 底 。 在 这 里 ， 我 们 将 采用 log 表达 式 作为 TF 权重 的 首选 形式 ， 因 为 这 使 得 
它们 可 以 和 IDF 权重 比较 (也 是 log 函数 的 形式 ， 我 们 之 后 会 讨论 ) 。 举 例 来 说 ， 如 图 3-6 
中 的 小 规模 样 例文 档 集 ， 对 这 个 集合 ， 项 频 和 对 数 TF 权重 如 表 3-1 所 示 。 


To do is to be. To be or not to be. | | I think therefore I am. Do do do, da da da, 
To be is to do. 1 am what I am. Do be do be do. Let it be, let it be. 
d, d, d, d, 


图 3-6 mh PUAA 3c E R RR E CR 















































表 3-1 3-6 样 例文 档 集 上 的 项 频 fi,,/ 和 对 数 TF 权重 Trye 文档 大 小 是 文档 内 词 的 个 数 ， 也 在 表 中 列 出 
# 项 TFin TFi,2 TFi,3 TF; 
1 to 3 2 一 一 
2 do 2 一 2.585 2. 585 
3 is 2 一 一 一 
4 be 2 2 2 2 
5 or 一 1 一 一 
6 Dot 1 一 一 
7 I 一 2 2 一 
8 am 一 2 1 一 
9 what 一 1 一 一 
10 think 一 一 1 一 
11 therefore 一 一 1 一 
12 da 一 一 一 2. 585 
13 let 一 一 一 2 
14 it 一 一 一 2 
SOKA (HARO 








Salton 和 Yang [1418] 的 实验 证 明了 ， 在 有 些 情 况 下 ， 项 频 权 重 对 于 提高 基于 二 值 权 
重 的 检索 系统 是 有 用 的 。 然 而 ， 他 们 观察 到 ， 当 测试 文档 集 和 查询 集 改变 的 时 候 ， 其 增益 并 
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不 一 致 。 项 权重 需要 更 进一步 地 改进 ， 这 样 Sparck Jones 提出 了 反比 文档 频率 。 

2. 反比 文档 频率 权重 

通过 反思 生成 文档 集 索 引 项 的 过 程 和 将 这 些 索 引 项 用 于 检索 的 情况 ，Sparck Jones 构想 
出 关于 这 种 索引 项 特异 性 的 统计 解释 ， 称 为 IDF， 它 是 项 权重 的 基石 。 她 的 解释 基于 启发 式 
探索 ， 并 激发 了 为 IDF 提供 理论 依据 进行 深入 的 研究 工作 。 在 这 些 解释 中 ， 一 种 有 见地 的 
观点 ， 同 时 也 以 经 典 的 概率 模型 阑 述 的 IDF 原理 ， 是 Robertson 在 [1371] 中 提出 的 。 这 
里 ， 我 们 根据 由 Sparck Jones 基于 语言 项 的 穷尽 性 (exhausitivity) 和 特异 性 〈specificity) 
的 原始 论点 来 讨论 IDF. 

定义 ”穷尽 性 和 特异 性 。 穷 尽 性 是 文档 描述 的 一 种 属性 ， 特 异性 是 索引 项 的 属性 。 文 档 
描述 的 穷尽 性 可 以 解释 为 文档 对 其 主要 主题 的 履 益 度 。 索 引 项 的 特 骨 性 可 以 解释 为 这 个 索引 
项 能 多 好 地 描述 文档 的 主题 。 

如 果 我 们 向 文档 中 增加 新 的 索引 项 ， 那 么 文档 描述 的 穷尽 性 也 会 增加 。 而 且 ， 这 个 文档 
和 一 个 输入 查询 相关 的 概率 也 会 增加 ， 即 检索 概率 的 提升 。 这 自然 引 人 了 如 下 的 最 优 穷尽 性 
的 概念 。 

定义 ”最 优 穷尽 性 。 赋 给 文档 越 多 的 索引 项 ,文档 描述 的 穷尽 性 就 越 大 。 从 查询 流 中 任 
意 选 出 的 查询 检 出 文档 的 概率 也 增加 了 。 然 而 ， 如 果 一 篇 文档 被 赋予 了 太 多 的 索引 项 ， 那 么 
它 将 被 与 它 不 相关 的 查询 检 出 。 这 表明 每 篇 文档 索引 项 的 平均 数量 需要 优化 ， 以 最 大 化 检 出 
文档 的 相关 概率 。 这 个 索引 项 的 最 优 数 量 定义 了 文档 描述 的 最 优 穷尽 性 。 

举例 来 说 ， 像 搜索 引擎 那样 用 一 篇 文档 所 有 的 项 为 其 建立 索引 可 能 不 是 最 好 的 方法 。 一 
种 规避 这 个 问题 的 方法 是 使 用 所 有 的 项 来 索引 ， 并 根据 其 特异 性 设置 权重 ， 以 区 别 不 同 索引 
项 的 重要 性 。 

特异 性 是 索引 项 的 语义 属性 ， 即 索引 项 或 多 或 少 是 根据 它 的 意义 确定 的 。 举 例 来 说 ， 项 
“tea” 和 “beer” 比 “beverage” 更 具体 。 这 样 ， 如 果 索 引 是 手动 完成 的 ， 那 么 相 比 于 
“tea” 和 “beer”， 我 们 可 以 期 望 索 引 项 “beverage” 可 用 来 为 更 多 的 文档 索引 。 这 个 关于 索 
引 项 特异 性 的 解释 是 基于 索引 项 描述 文档 主题 的 准确 性 ， 是 信息 科学 研究 人 员 广 泛 采 用 的 。 
另 一 种 方法 是 把 特异 性 看 做 索引 项 使 用 情况 的 函数 。 也 就 是 把 索引 项 的 特异 性 解释 为 统计 属 
性 而 不 是 语义 属性 ， 如 下 所 示 。 

定义 ”统计 上 的 索引 项 特异 性 和 文档 穷尽 性 。 在 统计 上 ， 文 档 描述 的 穷尽 性 可 以 被 其 包 
含 的 索引 项 量化 。 而 且 ， 索 引 项 的 特 骨 性 可 以 被 该 项 出 现 的 文档 数量 的 反 另 数 所 量化 。 

穷尽 性 和 特异 性 之 间 的 关系 现在 清楚 了 。 若 文档 描述 变 得 越 长 ， 索 引 项 的 特异 性 就 变 得 
越 低 。 尤 其 是 ， 若 某 个 索引 项 出 现在 文档 集中 所 有 的 文档 中 ， 那 么 它 的 特异 性 最 小 ， 且 该 项 
对 检索 无 用 。 这 样 的 逻辑 自然 会 产生 由 特异 性 确定 项 权重 的 想法 。 对 此 ， 项 权重 可 以 表达 为 
项 出 现 的 相对 (relative) 频率 ， 如 下 所 示 。 

在 自然 语言 的 正文 中 ， 词 语 的 相对 文档 频率 可 以 由 数学 概率 分 布 来 估计 ， 通 常 称 为 Zipf 
定律 [1793]， 在 6. 5. 2 节 中 有 详细 的 讨论 ， 

EX Zipf 定律 。 如 前 所 述 ， 设 n; 是 索引 项 ; 的 文档 频率 。 对 所 有 索引 项 的 文档 频率 
按 降 序 排列 ， 并 设 nlr》 是 第 r 个 项 的 文档 频率 。 我 们 说 +r 是 文档 频率 为 n(r) 的 索引 项 的 
序号 。 那 么 ， 根 据 Zipf 定律 ， 

nlr) ~r" (3-5) 
其 中 , a 是 由 经 验 常 数 。 也 就 是 说 ， 项 的 文档 频率 可 以 建 模 为 其 序号 的 指数 函 孝 。 
Zipf 定律 的 等 式 也 可 以 写 为 
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nlr) = Cr™ 

其 中 CBA-THABER., WRIA. coHlRRT-—ARSHIEW. B al 并 采用 
log 函数 (我们 以 2 为 底 ， 除 非 另 加 说 明 )， 

log n(r) = log C— logr 
这 是 基本 的 短 律 方程 〈( 即 ， 在 log-log 尺度 变换 下 ， 变 量 和 其 序号 之 间 的 Zipf 关系 是 负 线性 
WD). r=1, RNA C= 二 n(1)， 即 C 的 值 等 于 文档 集中 索引 项 的 最 大 文档 频率 ， 并 用 做 归 
一 化 系数 。 一 种 简化 的 方法 是 使 用 可 能 的 最 大 文档 频率 来 进行 归 一 化 ， 即 采用 C=N, Hep 
N 是 文档 集中 的 文档 数量 ， 如 前 所 示 。 这 样 ， 我 们 有 

logr ~ log N— log n(r) 
SRT VA FR 2 RA, FER. W k 是 文档 频率 排 在 第 ~ 位 的 索引 项 ， 即 
nb7) 二 n:， 则 索引 项 ; 的 权重 IDF; 是 


IDF, = log N (3-6) 


其 中 IDF; 称 为 索引 项 有 的 反比 文档 频率 (因为 n/N 仅仅 是 相对 文档 频率 ) 。 

表 3-2 说 明了 图 3-6 的 样 例文 档 集中 的 IDF 权重 。 我 们 观察 到 在 文档 集中 最 有 区 分 性 的 
索引 项 仅 出 现在 一 篇 文档 中 ， 最 没有 区 分 性 的 索引 项 则 出 现在 所 有 文档 中 。 在 一 个 大 的 真实 
文档 集中 ， 我 们 期 望 最 具 区 分 性 的 索引 项 是 名 词 或 者 名 词组 〈 由 一 些 词语 组 成 的 名 词 词组 ) 。 
最 没有 区 分 性 的 项 通常 是 冠 词 、 连 词 和 介词 ， 这 些 通常 称 为 禁用 词 (stop words), 


表 3-2 图 3-6 的 样 例文 档 集 (N=4) 上 的 IDF 值 
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在 Sparck Jones 提出 IDF 权重 之 后 不 久 ，Salton 和 Yang 设计 了 实验 来 确认 IDF 在 排序 
中 的 重要 性 [1418]。 如 今 ，IDF 权重 为 现代 索引 项 权重 公式 提供 了 基础 ， 并 被 几乎 所 有 的 
现代 信息 检索 系统 使 用 。 

3. TF-IDF 权重 

最 流行 的 项 权重 公式 是 由 Salton 和 Yang 提出 的 [1418], ERI IDF 因素 和 项 频 结 合 
起 来 的 权重 计算 方法 。 

定义 Rw, DAH (Ch, d) 的 项 权重 。 那 么 ， 我 们 定义 


| Fiz > 0 
Wij = ni 
0 其 他 


(3-7) 


这 称 为 TF-IDF 权重 公式 。 
表 3-3 说 明了 样 例文 档 集中 的 TF-IDF 权重 。 即 使 该 表 被 简化 过 ， 但 这 个 例子 仍 说 明了 
TF-IDF 权重 公式 的 性 质 。 索 引 项 越 稀少 权重 就 越 高 ， 因 为 它们 更 有 区 分 性 。 而 且 ， 在 一 篇 
文档 中 出 现 越 多 的 索引 项 就 拥有 更 高 的 相对 频率 。 
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R 3-3 3-6 的 样 例文 档 集 上 的 TF-IDF 权重 ， 用 公式 3-7 计算 得 到 。 
表 中 也 列 出 了 用 带 权 向 量 的 范 数 计算 得 到 的 文档 长 度 





























# 

1 — 

2 1. 073 

3 — 

4 be — 一 

5 Or 一 一 

6 not 一 一 

7 I 2 一 

8 am 1 一 

9 what 一 一 
10 think 2 一 
11 therefore 2 一 
12 da 一 5. 170 
13 let 一 4 
14 it 一 4 

文档 大 小 〈 向 量 范 数 ) .0 4. 899 .7 


尽管 简单 ， 但 TF-IDF 权重 对 一 般 的 文档 集 是 相当 有 效 的 ， 也 就 是 说 ， 可 以 给 我 们 一 无 
所 知 的 新 文档 集中 的 索引 项 赋予 权重 。 

4. TF-IDF 的 变 体 

在 参考 文献 中 记述 了 TF-IDF 权重 表达 式 的 好 几 种 变 体 。 其 中 最 值得 关注 的 是 由 Salton 
和 Buckley [1410] 提出 的 变 体 ， 以 及 在 Witten, Moffat 和 Bell [1709] 的 文献 中 提出 的 变 
体 ， 下 面 将 详细 讨论 。 

R 3-4 列 出 了 TF 权重 的 五 种 不 同 的 变 体 。 如 果 项 出 现在 文档 (或 查询 ) 中 ， 那么 二 值 
(binary) 变 体 赋予 权重 为 1; 否则 ， 为 0。 原始 项 频 Craw frequency) 变 体 是 一 种 直接 使 用 
项 频 的 基本 方法 。 对 数 归 一 化 Clog normalization) 变 体 类 似 于 IDF 权重 ， 采 用 了 对 数 函 数 ， 
当 频 率 增加 时 ， 了 略微 增加 权重 。 两 倍 归 一 化 0.5 (double normalization 0.5) 变 体 引入 了 两 
个 效应 : 首先 ， 它 用 文档 (或 者 查询 ) 的 最 大 频率 对 权重 进行 归 一 化 ; 其 次 ， 它 把 权重 归 一 
化 到 0.5~1 之 间 。 两 倍 归 一 化 天 变 体 (double normalization K) 只 是 一 种 泛 化 形式 。 通 过 
变化 天 ， 可 以 减少 或 者 增加 f;,; 在 TF 权重 中 的 影响 。 

表 3-5 列 出 了 IDF 权重 的 五 种 不 同 的 变 体 。 一 元 (unary) 变 体 给 所 有 索引 项 的 IDF RK 
予 1， 即 剔除 IDF 因素 。 反 比 文档 频率 〈inverse frequency) 变 体 是 我 们 上 面 讨论 的 标准 公 
式 。 反 比 平滑 文档 频率 〈inverse frequency smooth) 变 体 给 对 数 的 真 数 增加 1， 避 人 免 当 ni 出 
现 极端 情况 下 产生 异常 情形 。 反 比 最 大 文档 频率 (inverse frequency max) 变 体 不 是 用 文档 
集中 文档 的 个 数 ， 而 是 用 最 大 的 文档 频率 来 计算 权重 。 概 率 反 比 文档 频率 (probabilistic in- 
verse frequency) 变 体 是 由 经 典 的 概率 模型 变化 得 到 的 ， 将 在 3. 2.7 节 中 讨论 。 





































表 3-4 TF 权重 的 变 体 M 3-5 IDF 权重 的 变 体 
权重 框架 IDF 权重 
一 元 1 
N 
BE E XAR log =- 
对 数 归 一 化 1 十 log fi,; N 
7 反比 平滑 文档 频率 log(1+——) 
两 倍 归 一 化 0.5 0.5 十 0. 5 -一 二 一 一 
Te 反比 最 大 文档 频率 log (1+ == ) 
两 倍 归 一 化 天 K+0-K) oe 概率 反比 文档 频率 tog Na 
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TF 变 体 和 IDF 变 体 之 间 不 同 的 组 合 产 生 TF-IDF 权重 不 同 的 形式 。 给 定 两 个 文档 集 C， 
和 C: ， 对 每 个 文档 集 最 合适 的 TF-IDF 权重 形式 可 能 不 同 。Salton 在 [1408] 中 推荐 的 三 种 
TF-IDF 权重 形式 如 表 3-6 所 示 。 除 非 另 行 说 明 ， 本 书 的 例子 中 采用 第 三 种 权重 框架 。 
表 3-6 推荐 的 TF-IDF 权重 框架 
文档 项 权重 
fisXlog Š 






















(o. 5+0. 5 — A ) X log $ 


max; fia 











N 
2 1 十 log fi. log(1+--) 
(1+log fj) X log = (1+ log f.a) X log = 


5. TF-IDF 的 性 质 
为 了 更 好 地 理解 TF-IDF 权重 的 行为 ， 考 察 一 个 由 98 732 篇 1987—1989 年 出 版 的 
《Wall Street Journal) (华尔街 日 报 ) 组 成 的 参考 文档 集 [702]。 可 以 通过 如 下 的 公式 研究 
TF, IDF 和 TF-IDF 权重 在 这 个 文档 集 上 的 行为 。 


N 
TF, = 1+ log >) fij (3-8) 
j=1 


IDF, = log(*) 

注意 到 ， 为 了 在 整个 文档 集 上 表达 某 个 索引 项 的 TF 权重 ， 我 们 把 该 索引 项 在 所 有 文档 

中 的 项 频 都 累加 起 来 〈 如 前 定义 的 那样 ， 这 是 文档 集 总 项 频 F;)。 设 r 是 每 个 索引 项 根据 
TF 权重 的 排名 〈 即 排名 为 1 的 项 在 文档 集中 有 最 大 的 TF 权重 )。 图 3-7 说 明了 ， 对 于 
《Wall Street Journal) (华尔街 日 报 ) 参考 文档 集 ， 式 (3-8) 定义 的 TF 和 IDF 权重 如 何 随 
着 索引 项 排名 的 变化 而 变化 的 。 我 们 观察 到 TF 和 IDF 权重 表现 出 的 宕 律 特性 会 相互 平衡 。 
高 TF 权重 趋 于 和 低 IDF 权重 联系 在 一 起 ， 而 低 TF 权重 趋 于 和 高 IDF 权重 联系 在 一 起 。 结 
果 ， 最 大 的 TF-IDF 权重 是 由 具有 中 等 IDF 权重 的 索引 项 构成 的 。 也 就 是 说 ， 在 一 个 大 的 文 
档 集中 最 具 区 分 性 的 不 是 那些 有 最 高 IDF 权重 的 索引 项 ， 而 含有 中 等 IDF 权重 的 索引 项 具 
有 最 大 的 TF-IDF 权重 (这 是 一 个 用 于 排序 的 重要 现象 ， 首先 由 Salton, Yang 和 Yu 
[1417] 提出 )。 换 而 言 之 ， 像 禁用 词 那样 的 普通 索引 项 和 像 外 语 单词 或 者 错误 拼写 那样 的 稀 
少 索 引 项 对 于 排序 都 没有 很 大 价值 。 


25 -一 -一 一 r 一 r n 








120 : 
TF + TF x IDF + 
IDFx 4 100r 











20L + $ 
20 +n, = 
s Q+— steht, aal 1 4 rat 4 
1 10 100 1000 10000 100 000 le+06 l 10 100 1000 10000 100 000 1e+06 
a) b) 














图 3-7 «Wall Street Journal》( 华 尔 街 日 报 ) 参考 文档 集 的 TF、IDF 和 TF-IDF 权重 ， 按 照 
TF 权重 的 降序 排列 《用 对 数 尺度 绘制 ) 


3.2.5 文档 长 度 归 一 化 
在 大 的 文档 集中 ,文档 长 度 可 能 变化 很 大 。 这 是 一 个 问题 ， 因 为 对 于 给 定 的 查询 ， 较 长 
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的 文档 仅仅 因为 它们 含有 更 多 的 索引 项 而 更 可 能 被 检 出 。 为 了 抵消 这 一 不 良 的 影响 ， 我 们 把 
每 篇 文档 的 排序 除 以 其 长 度 ， 这 个 过 程 通常 称 为 文档 长 度 归 一 化 。 因 为 这 确实 能 导致 更 好 的 
排序 〈 即 更 符合 用 户 相关 性 感知 的 排序 ) ， 文 档 长 度 归 一 化 被 信息 检索 模型 广泛 地 采用 。 

然而 ， 为 了 恰当 地 归 一 化 文本 的 排序 ， 必 须 建立 如 何 计算 文档 长 度 的 方法 。 这 可 以 通过 
多 种 方法 来 实现 ， 取 决 于 文档 采用 的 表示 形式 。 

定义 ” 字 节 大 小 。 假 设 每 篇 文档 都 简单 地 用 字 节 流 表示 。 在 这 种 情况 下 ， 文 档 长 度 是 流 
中 字 节 的 数量 ， 即 文档 的 字 节 大 小 。 这 种 表达 方式 的 主要 优点 是 其 简单 性 。 

定义 ”词语 数量 。 假 设 每 篇 文档 由 一 个 单一 的 字符 串 表 示 ， 这 个 字符 囊 可 以 分 解 成 词 
语 。 在 这 种 情况 下 ， 文 档 长 度 是 其 词语 的 数量 。 这 种 表达 形式 也 简单 ， 但 是 要 在 句法 层 计算 
文档 长 度 ， 它 包含 了 更 多 语义 信息 。 k 

定义 ”向 量 范 数 。 假 设 每 个 索引 项 被 赋予 1 维 空 
间 中 的 一 个 正 交 单 位 向 量 忆 (其 中 ， 上 是 索引 项 的 总 
数 ) 。 在 这 个 空间 里 ， 文 档 可 以 表示 为 如 下 的 索引 项 
带 权 向 量 。 对 于 文档 向 量 可 的 索引 项 Ri， 用 向 量 
wy Xk, 表示 该 项 对 这 篇 文档 的 重要 性 。 文 档 表达 式 
d 成 为 由 所 有 索引 项 向 量 分 量 组 成 的 向 量 ， 如 图 3-8 
所 示 。 文 档 长 度 由 向 量 范 数 给 出 ， 见 式 (3-9), 


IZI =| Du}; (3-9) 


把 文档 表示 为 字 节 流 或 者 字符 串 ， 因 为 可 获得 文档 长 度 的 简单 度量 ， 即 文档 内 字 节 的 大 小 
或 词语 的 数量 。 带 权重 的 向 量 表达 式 则 考虑 不 同 索引 项 的 权重 而 导致 更 复杂 的 文档 长 度 计 算 。 

表 3-7 说 明了 图 3-6 的 样 例文 档 集中 的 文档 长 度 。 为 了 用 字 节 计算 文档 大 小 ， 我 们 认为 
每 行 都 有 一 个 行 结束 符 ， 每 篇 文档 末尾 都 有 一 个 文件 结束 符 。 并 且 ， 每 一 对 连续 的 词语 由 一 
个 空白 字符 分 开 。 我 们 注意 到 把 文档 按照 字 节 大 小 或 者 词语 数量 计算 获得 的 文档 长 度 之 间 的 
区 别 不 超过 26% (最 短 和 最 长 文档 之 间 的 相对 区 表 3.7 图 3.6 的 文档 集 上 三 种 文档 长 朗 的 变 体 
别 )。 然 而 ， 把 向 量 范 数 作为 文档 长 度 计算 会 引入 





图 3-8 XE, 





更 多 的 变化 ， 其 中 有 两 篇 文档 长 度 的 相对 区 别 超过 





T 100% 。 这 是 因为 考虑 了 索引 项 权重 ， 使 得 含有 [10 | 11 10 12 
更 多 区 分 性 索引 项 的 文档 被 加 强 了 ， 如 样 例文 档 集 7.738 


合 中 文档 ds 的 情况 。 

文档 长 度 归 一 化 是 被 广泛 采用 的 重要 排序 原则 ， 主 要 原因 是 因为 采用 该 方法 普遍 提高 了 
结果 的 质量 。 仅 仅 因 为 更 长 ， 长 文档 更 有 可 能 和 一 个 新 查询 的 索引 项 相 匹配 ， 但 这 并 不 一 定 
意味 着 文档 和 查询 相关 。 相 反 地 ， 很 长 的 文档 可 能 只 是 一 个 损害 了 检索 结果 的 噪声 。 为 了 减 
小 文档 长 度 对 文档 排序 的 影响 ， 最 好 的 信息 检索 模型 在 排序 中 采用 某 种 文档 归 一 化 方法 。 这 
对 于 长 度 变化 很 大 的 文档 集 尤 为 有 用 。 


3.2.6 向 量 模型 


向 量 模型 [1504，1418，1416] 认识 到 布尔 匹配 太 有 限 ， 提 出 了 一 套 可 以 进行 部 分 匹配 
的 框架 。 这 是 通过 对 查询 和 文档 中 的 索引 项 赋予 非 二 值 权 重 实现 的 。 这 些 权 重 最 终 用 来 计算 
系统 中 存储 的 文档 和 用 户 查 询 之 间 的 相似 度 。 通 过 对 检 出 文档 按 相似 度 的 降序 排列 ， 向 量 模 
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型 考虑 和 查询 仅 有 部 分 相 匹配 的 文档 。 相 比 由 布尔 模型 检 出 的 文档 集 ， 其 主要 效果 在 于 ， 排 
序 的 文档 提供 了 更 精准 的 答案 ， 更 符合 用 户 的 信息 需求 。 

定义 对 于 向 量 模型 ， 项 -文档 对 (k;，d;) 的 权重 rui 是 非 负 的 ， 而 且 是 非 二 值 的 。 假 
定 所 有 的 索引 项 是 相互 独立 的 ， 并 表示 成 上 上 维 空间 上 的 单位 向 量 ， 其 中 上 是 索引 项 的 总 个 
数 。 文 本 d; 和 查询 g 的 表达 形式 是 上 维 向 量 ， 如 下 所 示 。 


一 
d; = (wr; 9 702 tts W 5) 
二 一 

q 一 (wri, y Wag s" Whg) 


其 中 ， 项 -查询 对 Ch, Q 的 权重 是 wigs Waq. 

因此 ,文档 和 用 户 查询 9 被 表示 成 1 维 向 量 ， 如 图 3-9 所 示 。 向 量 模型 衡量 文档 a, 
相对 于 查询 g 的 相似 度 ， 即 向 量 和 向 量 了 之 间 的 关联 关系 。 这 个 关系 可 以 被 量化 ， 例 如 
用 向 量 间 的 夹 角 余 弦 ， 也 就 是 ， 


二 (3-10) 


dj° 

Ix) [Sa Sua, 
其 中 ， 1 2 | 和 | 他 | 是 文档 和 查询 向 量 的 范 数 ， id, 。 了 是 这 两 个 向 量 间 的 内 积 。 分 母 因数 
[ 立 | 不 影响 排名 〈 即 文档 的 排序 ) ， 因 为 它 对 所 有 的 文档 都 一 样 。 分 母 因数 | 2 | 提供 了 文档 
长 度 的 归 一 化 。 关 于 向 量 模型 ， 更 复杂 的 归 一 化 可 参考 Singhal, Buckley 和 Mitra 在 主轴 
(pivoted) 文档 长 度 归 一 化 上 的 工作 [1484]. 

由 于 wi; 220 H w0, IA sima, dj) 介 于 0 一 1 之 间 。 这 样 ， 向 量 模型 根据 文档 相对 
于 查询 的 相似 度 排序 ， 而 不 是 采用 二 值 的 判断 标准 。 即 使 一 篇 文档 和 查询 部 分 匹配 ， 也 可 能 被 
检 出 。 例 如 ， 可 以 给 sima, di) 设 定 一 个 阅 值 ， 然 后 检 出 相似 度 高 于 这 个 阐 值 的 文档 。 

向 量 模型 中 的 权重 基本 上 是 TF-IDF 权重 。 这 里 ， 我 们 采用 表 3-6 列 出 的 权重 框架 3， 因 此 ， 


Wig = (1+ log fig) X log(*) (3-11) 





sim Cd, 9) 一 


wij = + log fi,;) X log(*) (3-12) 


其 中 ， 广 ,是 索引 项 EAW 〈 或 信息 需求 ) g PHAR., R 〈3-11) MA (3-12) MAM 
用 于 项 频 大 于 零 的 值 中 。 如 果 项 频 是 零 ， 那么 相应 的 权重 也 是 零 。 只 要 查询 的 项 频 都 等 于 
1， 这 在 Web 中 是 常见 的 情况 ， 权 重 w:,s 可 以 简化 为 IDF;。 在 这 种 情况 下 ， 我 们 可 把 zw, 重 
定义 为 TF;.;。 这 样式 (3-10〉 中 分 子 的 累加 和 是 TFX IDF 的 形式 ， 而 不 是 TFXIDF*。 这 
是 表 3-6 中 权重 框架 2 的 解释 。 


d, R 3-8 对 于 查询 “to do” 计 算得 到 的 文档 排序 ， 使 用 了 式 (3-11) 
和 式 (3-12) 的 TF-IDF 权重 (也 可 见 图 3-2 和 图 3-3) 










1X3+0. 415 X0. 830 
5. 068 
1X2+0. 415 X0 
4. 899 
1X0+0. 415 X 1. 073 
3. 762 
1X0+0. 415 X 1. 073 
7. 738 









0. 408 
q 


图 3-9 在 向 量 模型 中 ， 采 用 0 的 
余弦 作为 sim (d; ， q) 
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表 3-8 说 明 对 于 查询 “to do” 在 图 3-6 的 文档 集中 排序 的 计算 。 我 们 注意 到 文档 di 是 

排名 最 高 的 文档 ， 因 为 它 包 含 了 所 有 查询 项 。 而 且 ， 文 档 ds Md 仅 含有 查询 项 “do”， 但 
文档 d, 有 一 个 较 小 的 排序 ， 因 为 它 的 向 量 范 数 更 大 “这 是 文档 长 度 归 一 化 的 效果 )。 除 了 简 
单 性 外 ， 由 于 向 量 模型 采用 的 权重 框架 和 文档 长 度 归 一 化 方法 ， 因 此 它 在 一 般 文档 集 上 获得 
了 良好 的 结果 。 
”向量 模型 主要 的 优点 是 ， 1) 索引 项 权重 公式 提高 了 检索 质量 ; 2) 它 的 部 分 匹配 策略 检 
出 了 近似 于 查询 条 件 的 文档 ; D 它 的 余弦 排序 公式 根据 文档 相对 于 查询 的 相似 度 进行 排序 ; 
4) 文档 长 度 归 一 化 被 自然 地 内 建 于 排序 中 。 理 论 上 说 ， 向 量 模型 的 缺点 是 索引 项 被 假定 为 
相互 独立 的 〈 式 〈3-7) 没有 考虑 索引 项 间 的 依赖 性 ) 。 然 而 ， 实 际 上 ， 利 用 项 间 依 赖 关 系 是 
有 困难 的 。 若 处 理 得 不 恰当 ， 甚 至 可 能 导致 糟糕 的 结果 。 

除了 简单 性 外 ， 向 量 模型 对 一 般 文档 集 而 言 是 一 种 弹性 的 排序 策略 。 在 没有 查询 扩展 或 
相关 反馈 的 情况 下 〈 见 第 5 章 )， 其 产生 的 排序 结果 已 很 难 进一步 改进 。 其 他 大 量 排序 方法 
已 经 和 向 量 模型 做 了 比较 ,但 似乎 对 于 一 般 文档 集 ， 向 量 模 型 是 一 个 良好 坚实 并 且 简 单 快速 
的 基本 排序 方法 。 由 于 这 些 原因 ， 向 量 模型 一 直 是 一 种 流行 的 检索 模型 ， 在 对 替代 排序 公式 
和 新 提出 的 信息 检索 模型 的 评测 中 经 常 作为 基准 。 


3.2.7 概率 模型 


概率 模型 于 1976 年 由 Robertson 和 Sparck Jones [1365] 提出 ， 这 是 一 种 基于 概率 框架 
的 信息 检索 解决 方案 。 其 基本 想法 是 ， 给 定 一 个 用 户 查询 ， 有 一 个 文档 集 恰 好 包含 了 所 有 相 
关 的 文档 ， 且 不 包含 其 他 文档 。 让 我 们 把 这 个 文档 集 称 为 理想 答案 集 。 给 定 这 个 理想 答案 集 
的 描述 ， 我 们 就 可 以 检 出 相关 的 文档 。 因 此 ， 我 们 可 以 把 查询 过 程 看 做 是 定义 理想 答案 集 属 
性 的 过 程 。 问 题 是 我 们 并 不 准确 地 知道 这 些 属 性 是 什么 。 我 们 所 知道 的 是 ， 有 些 索引 项 的 语 
义 可 用 来 刻画 这 些 属 性 。 由 于 这 些 属 性 在 查询 时 是 未 知 的 ， 因 此 最 初 要 花费 精力 去 估 测 这 些 
属性 是 什么 。 这 个 最 初 的 估 测 可 使 我 们 对 理想 答案 集 产生 初步 的 概率 描述 ， 它 可 用 来 检 出 最 
初 的 文档 集 。 

为 了 改善 理想 答案 集 的 概率 描述 ， 可 触发 和 用 户 间 的 互动 。 例 如 ， 用 户 可 以 检查 检 出 的 
文档 ， 并 决定 哪些 文本 是 相关 的 ， 哪 些 是 不 相关 的 〈 在 真实 情况 下 ， 只 有 排 在 前 面 的 文档 需 
要 被 检查 ) 。 然 后 ， 系 统 可 以 用 这 些 信息 提炼 理想 答案 的 描述 。 通 过 多 次 重复 这 一 过 程 ， 可 
以 预期 到 理想 答案 的 描述 会 变 得 更 准确 。 因 此 ， 我 们 应 该 总 是 记 住 在 最 初 需要 估 测 理想 答案 
集 。 而 且 ， 要 有 意识 地 用 概率 论 的 语言 来 建 模 。 

概率 模型 的 排序 基于 如 下 由 Robertson [1364] 阐述 的 基础 假设 。 

定义 ”概率 排序 原则 (Probability Ranking Principle)。 给 定 用 户 查 询 g 和 文档 集中 某 
篇 文档 d;， 概 率 模 型 党 试 估计 用 户 认为 文档 d 有 趣 〈 即 相关 ) 的 概率 。 该 模型 假设 相关 概 
率 仅 仅 取 决 于 查询 和 文档 的 表示 形式 ， 即 仅 依赖 系统 可 获得 的 信息 。 而 有 全， 该 模型 假设 所 有 
的 文档 中 存在 一 个 子 集 ， 该 子 集 被 用 户 看 做 是 查询 g 的 答案 集 。 这 个 理想 答案 集 被 称 为 RR， 
它 能 最 大 化 与 用 户 相 关 的 总 体 概率 。 集 合 RR 中 的 文档 被 预测 为 与 查询 gq HK, 不 在 这 个 集 
合 中 的 文档 被 预测 为 不 相关 的 。 

因为 与 用 户 的 相关 性 可 能 被 系统 外 的 变量 所 影响 ， 所 以 这 一 假设 有 些 问题 。 用 系统 可 获 
得 的 信息 产生 理想 管 案 集 ， 从 用 户 的 角度 看 可 能 并 不 理想 (ideal)。 而 且 ， 该 原理 没有 清楚 
地 说 明 如 何 计算 相关 概率 。 实 际 上 ， 甚 至 没 给 出 定义 这 种 概率 的 样本 空间 。 

给 定 查 询 g， 作 为 查询 相似 性 的 度量 ， 概 率 模 型 给 每 篇 文档 赋 一 个 比率 P(d 与 9 相 
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关 )/P(di Hq 不 相关 )， 它 计算 了 文档 d 和 查询 g 相关 的 优势 比 。 按 相关 性 的 优势 来 排序 
使 得 错误 判断 的 概率 最 小 化 [599, 1624]. 
定义 ”在 概率 模型 中 ， 查 询 g 是 索引 项 的 子 集 , 文档 d 被 表示 成 二 值 权 重 的 向 量 ， 宁 
体 修 改 分 量 的 值 表 明 这 个 索引 项 是 否 出 现 ， 如 下 所 示 。 
d, = Cw rw tj) 
EF, RRIA k 出 现在 文档 d; 中 ，wi.; 二 1; 否则 ，wi,j 二 0。 给 定 查询 gq， 假设 尺 是 一 
个 对 于 用 户 而 言 已 知 的 相关 文档 集合 (或 初始 猜测 的 )。 假 设 尺 是 R 的 补 集 ( 即 不 相关 文档 
KO), PRI dj D AUD 表示 的 文档 d; 和 查询 gq 相关 的 概率 。 而 有 全 ， 忆 (页 | 9，q) BX 
档 d; 和 查询 g 不 相关 的 概率 。 文 档 吃 和 查询 g 的 相似 度 sim(d;，g) 定义 为 如 下 的 比率 。 
PRIZ oD 


DE PRIT D 
使 用 贝 叶 斯 定理 ， 
PÍ |RD XP(R,g) PF, Ro) X P(RI@) 
sim(d; q) = = 


PO IR,g) X P(Riqg) P, |R,g) XPRIO 
PC, IR, 9 表示 从 查询 g WAKA R 中 随机 选择 的 一 篇 文档 表示 为 过 的 概率 。 而 P(Ric) 
表示 从 整个 文档 集中 随机 选择 的 文档 和 查询 g 相关 的 概率 。 PCd, IR, 0 MP(Riqg) He 
义 是 相似 且 互 补 的 。 

由 于 PCR\q) MPR) 对 集合 内 所 有 的 文档 都 是 相同 的 ， 因 此 可 得 ， 

P( 过 |R,9) 
sim (d; q) 一 一 人 一 (3-14) 

回顾 一 下 ， 文档 的 表达 式 如 是 由 二 值 权 重组 成 ， 每 一 维 表 示 索 引 项 是 否 存 在 文档 d; 
中 。 如 果 假 设 索 引 项 间 的 独立 性 ， 即 所 谓 的 二 值 独 立 假设 (binary independence assump- 
tion), 那么 可 得 ， 


( II PCR IR oa) x (_ i PĒ IRo) 


klw, =} 
i Minj 


( T Pk |R+q)) x ( T Pa, IR.) 


Hep, PIR, 0 表示 索引 项 ki 出 现在 从 查询 4 的 相关 文档 集 R 中 随机 选择 的 一 篇 文档 
内 的 概率 ， 而 P(& |R，q) 表示 索引 项 k 不 出 现在 从 查询 g 的 相关 文档 集 RR 中 随机 选择 的 
一 篇 文档 内 的 概率 。 集 合 尺 对 应 的 概率 有 类 似 的 含义 。 
为 了 简化 表示 ， 假 设 采用 如 下 的 约定 ， 
pr = P(k;|R ,gq) 
qr = P(k;|R+q) 
由 于 PIR, O+PQNR, 9=1, HPC IR, O+PG; IR, D=1, Abas, 


(TT wjx( IH.) 


( lL an) X ( IL (14a) 
SFE RRR Sa HE ET ee HR Sh 因此 可 得 ， 





sim (dj ,q) ~ 


sim(d;,9) ~ 
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sim di,9) ~log pig bx + log If Q- pe) 


klw, =0 


_ tog I qr — log II (1 — qr) 


klw, j=l klw ,=0 


把 能 相互 抵消 的 索引 项 累加 起 来 ， 可 得 ， 
sim (d; "9) ~log I] ee t+log Tf O- pe) 


A lw, =! k lw, ,=0 


—log J] C — pa) + log pig = pa) 


klw, ju 
— log „dL, qr — log „dL, (1 — qr)? 


+ log TI 一) log AL, (1 — qx) 


a lw, = 


该 式 可 以 用 对 数 函 数 重 写 为 ， 


sim di,g) ~log i Tm e 


+ log T Gow ~ log [[ 0- aa) 


k lw, =i 
” 


注意 这 里 有 两 项 是 在 所 有 索引 项 上 的 乘积 ， 这 意味 着 它们 和 查询 q 与 文档 di 相 独 立 。 
也 就 是 说 ， 它们 是 常数 ， 对 于 排序 是 可 以 被 忽略 的 。 而 且 ， 假 设 
Vki € q> Pr = qn 
并 把 连 乘 的 对 数 形式 转变 成 对 数 的 累加 和 形式 ， 最 终 可 得 ， 
sim(dj,q) ~ > log( 这 £—) +log(* —*) (3-15) 


k EGAk Ed, 


这 是 概率 模型 中 计算 排序 的 主要 公式 。 

由 于 我 们 最 初 不 知道 集合 R， 因 此 有 必要 设计 一 种 方法 用 于 最 初 计算 概率 bm 和 ge。 有 
许多 方法 可 以 进行 这 样 的 计算 ， 我们 下 面 对 此 加 以 讨论 。 

1. 案 引 项 出 现 列 联 束 

可 以 用 如 下 所 示 的 列 联 表 [1365] 来 对 概率 排序 公式 给 予 更 详细 的 解释 。 

定义 设 NN 是 文档 集 内 文档 的 数量 ,，n,; 是 包含 索引 项 k; 的 文档 的 数量 。 HH, BER 
是 (从 用 户 的 角度 看 ) 和 查询 g 相关 的 文档 的 总 数量 ,六 ASARI Ak 的 相关 文档 的 数 
量 。 索 引 项 出 现 列 联 表 如 表 3-9 所 示 。 





训 3-9 RI MHRARR 





情况 总 文档 数 
包含 上 的 文档 ni 
不 包含 ki 的 文档 N-n 
所 有 文档 N 





对 于 任何 给 定 的 查询 ， 若 都 有 索引 项 出 现 列 联 表 中 的 信息 〈 实 际 上 我 们 不 知道 这 信息 ， 
因为 我 们 不 知道 新 查询 的 相关 文档 )， 则 可 得 ， 





HA, È (3-15) 可 以 重 写 为 ， 
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Nm RE) (3-16) 


sim Cd; sg) ~ È tel (Rr m n) 
HE, klas d] 是 ;EqAk;Edqd; 的 简短 标记 。 为 了 让 式 (3-16) 有 效 ， 我 们 仍然 依赖 于 估 
计 哪 些 是 查询 的 相关 文档 。 为 了 处 理 小 值 的 7r;， 为 方便 起 见 在 式 (3-16) 中 给 每 一 索引 项 增 
加 0.5 的 数值 ， 这 样 可 得 ， 


sim (di ,9) ~ S) log( St oN Tm Rtr To. 5)) 


kilna] (R= ri +0. 5) (n; — r; +0. 5) 
这 个 公式 在 极端 情况 下 也 能 良好 工作 ,在 六 和 R 是 某 些 特定 值 的 情况 下 也 不 会 导致 无 限 大 
的 排序 ， 例 如 及 = 一 。 作 为 概率 模型 的 经 典 排 序 等 式 ， 它 也 称 为 Robertson-Sparck Jones 


等 式 。 
在 没有 ALR 的 估计 值 的 情况 下 ， 上 述 等 式 无 法 计算 。 一 种 可 能 是 假设 R=r;=0, M 
而 初始 化 排序 公式 可 得 ， 
. AN 一 n; + 0.5 
sim (d; ;9) ~ ,ee e(a) (3-17) 


在 缺乏 相关 信息 的 情况 下 ， 这 就 是 概率 模型 用 于 排序 计算 的 公式 。 注 意 到 ， 尽 管 存在 一 
个 IDF 成 分 ， 但 是 既 没 有 TF 权重 也 没有 文档 长 度 归 一 化 的 支持 。 这 些 问题 在 BM25 模型 中 
[33] 得 以 纠正 ， 我 们 稍 后 讨论 。 
表 3-10 说 明了 对 图 3-6 样 例文 档 集 查 询 “to do” 的 排序 计算 。 在 这 种 情况 下 ， 概 率 排 
序 公式 无 法 良好 运作 ， 因 为 索引 项 “do” 产 生 的 权重 是 负 的 。 也 就 是 ， 式 (3-17) E n> 
N/2 的 情况 下 无 法 正常 工作 ， 使 得 负 的 索引 项 被 引 和 人 计算 中 。 
一 种 避免 这 种 反常 情况 的 替代 方式 是 从 式 (3-17) 中 去 掉 分 子 中 的 n, W [1374， 
1371] 中 提出 的 。 于 是 可 得 ， 
sim(dj1q) ~ D tog( X E25) (3-18) 


EqNk Ed, 


注意 到 现在 出 现在 所 有 文档 中 的 索引 项 (n; 一 N) 会 产生 等 于 零 的 权重 ， 并 且 所 有 索引 

项 的 权重 都 是 非 负 的 。 如 表 3-11 所 示 ， 用 式 (3-18) 为 样 例文 档 集 重新 计算 了 排序 。 现 在 

这 个 概率 排序 和 由 向 量 模型 生成 的 排序 相似 ， 即 d >d: >d: 二 4,。 这 里 无 法 区 别 文 档 心 和 
d,， 因 为 与 向 量 模型 不 同 ， 它 不 支持 文档 长 度 归 一 化 。 


































































表 3-10 ”在 图 3-6 中 的 样 例文 档 集 上 ， 对 查询 “to do” 表 3-11 对 于 查询 “to do”"， 用 修正 的 概率 
FAX (3-17) 计算 的 文档 排序 式 (3-18) 计算 的 文档 排序 
文档 排序 计算 排序 
4 一 3 十 0.5 +0. +0. 5 
dı log SET tog 340.5 T1. 222 log 5 Z+0. Prog toe 34 0.5 
de | log PPS 0 dz log SO? 0. 847 
d |i Lats ~1, 222 ds log so 0. 362 
di | log 43705 一 1. 222 log 3 二 0 
























上 面 的 例子 考虑 了 r=R=0 的 情况 。 男 一 种 更 仔细 地 估计 参数 r; AR 的 方法 是 用 
式 (3-18) 做 一 次 初始 搜索 ， 选 择 排序 前 10 一 20 篇 的 文档 ， 检 查 这 些 文档 来 获得 对 r; MR 
新 的 估计 ， 从 集合 中 去 掉 这 10 一 20 篇 文档 ， 然 后 用 估计 获得 的 和 R 重新 检索 查询 一 一 这 
一 过 程 称 为 剩余 排序 [708] (residual ranking) 。 不 幸 的 是 ， 由 于 开始 时 需要 人 工 干预 来 挑 
选 相关 文档 ， 因 此 这 样 的 过 程 是 不 实用 的 。 
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2. 无 相关 信息 下 的 排序 

A (3-17) 是 概率 模型 在 不 提供 相关 信息 的 情况 下 计算 排序 的 基本 公式 。 如 果 要 考虑 相 
关 人 信息， 那么 就 需要 人 工 和 干预。 为 了 避免 人 工 干 预 ，Croft 和 Harper [452] 提出 了 一 种 修 
正 参 数 rn AR 的 自动 过 程 。 

为 了 在 无 相关 信息 的 情况 下 计算 式 (3-15)， 我 们 可 以 : D 假设 px 对 所 有 索引 项 k; 是 
常数 ， 典 型 值 是 0.5， 表 示 对 这 个 项 的 分 布 没有 先 验 知识 ; 2) 假设 索引 项 在 不 相关 文档 中 
的 分 布 可 以 通过 索引 项 在 文档 集中 所 有 文档 上 的 分 布 估计 。 这 两 个 假设 产生 了 


nn; 
R = 0.5; qr 一 于 
Pr aR N 


RAR (3-15) 中 ， 可 得 ， 
sim(d; sq) ~ > log (2—*) 


n; 
k €qhk,€d, i 


这 和 式 (3-17) 相同 ， 只 是 没有 0. 5 的 调整 系数 。 给 定 这 个 初始 猜测 ， 我 们 能 检 出 包含 查询 
项 的 文档 ， 并 也 能 为 这 些 文档 提供 一 个 初始 的 概率 排序 。 接 下 来 ， 我 们 可 以 尝试 着 改进 这 个 
初始 排序 ， 如 下 所 示 。 

设 D 是 由 概率 模型 检 出 并 排序 得 到 的 初始 文档 集 的 子 集 ， 例 如 可 以 定义 为 前 M 篇 文 
档 ， 其 中 M 是 事先 定义 的 益 值 。 而 且 ， 设 D; 是 DD 的 子 集 ， 由 中 包含 索引 项 k: 的 文档 组 
成 。 为 了 简单 起 见 ， 我 们 也 用 DAD, 表示 这 些 集合 中 元 素 的 个 数 。 为 了 提高 排序 质量 ， 需 
要 改进 对 px 和 gx 的 猜测 。 这 可 以 通过 如 下 的 假设 获得 : D 可 以 根据 索引 项 k 在 当前 检 出 
文档 中 的 分 布 来 估计 pies 2) 可 以 把 所 有 未 检 出 的 文档 看 做 是 不 相关 的 ， 以 此 来 估计 gx 。 
有 了 这 些 假设 ， 可 得 : 





(3-19) 


_ D; _ an, — D; 
Pre =p =N D 
然后 迄 代 重复 这 个 过 程 。 通 过 这 样 ， 我 们 期 望 在 没有 人 工 参 与 的 情况 下 (这 和 最 初 的 想法 相 
反 ) 改进 对 概率 pr 和 gig 的 估 测 。 当 然 ， 这 完全 取决 于 出 现 的 索引 项 的 模式 ， 这 些 索 引 项 是 
有 噪声 的 〈 索 引 项 本 身 的 语义 信息 很 少 ， 可 能 会 误导 )。 因 此 ， 当 迭代 次 数 增加 时 ， 这 种 方 
法 不 一 定 会 提升 结果 。 另 一 种 方法 是 在 定义 子 集 DD 时 就 获得 用 户 的 协助 (如 最 初 构想 的 
那样 ) 。 
加 和 和 最 后 的 式 子 对 于 实际 中 产生 的 小 值 的 疡 和 D 产生 了 问题 ， 例 如 当 卫 =1 和 D,=0, 
为 了 绕 开 这 些 问题 ， 可 以 增加 调节 因子 ， 于 是 有 : 
_D, +05 a, —D;,+0.5 
Pe DT > 3 N- D+ 
调节 因子 设 为 常数 0.5 可 能 比较 局 限 。 一 种 方法 是 取 分 数 n/N 作为 调节 因子 ， 于 是 有 : 
DT 六 DT 
be = Da! 5N -DHI 
这 种 情况 下 ， 排 序 计 算是 在 不 提供 相关 信息 的 情况 下 完全 自动 地 进行 的 。 
上 述 的 排序 公式 对 于 图 3-6 中 的 样 例文 档 集 不 适用 ， 因 为 N 的 值 太 接近 了 ， 以 至 于 
有 些 排序 变 成 了 负数 。 对 于 更 大 规模 的 实际 文档 集 ， 这 个 式 子 是 适用 的 。 
3. 概率 模型 的 优点 和 缺点 
从 理论 上 讲 ， 概 率 模型 的 优点 是 它 的 最 优 性 ， 即 基于 系统 可 获得 的 信息 能 够 计算 文档 的 
相关 概率 ， 并 按照 降序 排列 。 然 而 ， 由 于 文档 的 相关 性 受到 系统 之 外 因素 的 影响 ， 因 此 这 种 
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方法 的 实际 效果 并 不 好 。 其 缺点 包括 : D 需要 做 初始 估 测 把 文档 分 为 相关 和 不 相关 集合 ; 
2) 这 种 方法 实际 上 没有 考虑 到 索引 项 出 现在 文档 中 的 频率 〈 即 所 有 的 权重 是 二 值 的 ); 3 k 
乏 文 档 长 度 归 一 化 。 概 率 模型 的 更 高 级 变种 ， 例 如 BM-25 模型 ， 修 正 了 这 些 缺 点 ， 改 进 了 
检索 效果 。 


3.2.8 经 典 模型 之 间 的 简单 比较 


布尔 模型 被 认为 是 最 弱 的 经 典 模型 。 其 主要 的 问题 是 缺乏 查询 和 文档 之 间 的 部 分 匹配 ， 
这 经 常 导 致 糟糕 的 检索 质量 。 对 于 概率 模型 是 否 比 向 量 模型 更 好 ， 尚 有 一 些 争议 。Croft 进 
行 了 一 些 实验 ， 表 明 概 率 模 型 能 提供 更 好 的 检索 质量 L452]。 然 而 ， 接 下 来 由 Salton 和 
Buckley 做 的 实验 反驳 了 这 种 观点 [1410]。 通 过 多 个 不 同 的 评测 指标 ，Salton 和 Buckley 证 
实 了 对 于 一 般 的 文档 集 ， 向 量 模型 超过 了 概率 模型 。 这 似乎 也 是 信息 检索 领域 的 研究 人 员 和 
从 业 人 员 主 要 的 观点 。 

对 于 一 般 的 文档 集 ， 向 量 模型 提供 了 一 个 合理 健壮 的 信息 检索 模型 供 比 较 。 为 了 更 好 地 
理解 这 点 ， 可 以 做 如 下 的 尝试 。 找 一 个 含有 上 万 篇 文档 的 集合 作为 参考 集 。 构 想 一 种 新 的 排 
序 公式 ， 与 我 们 到 现在 为 止 所 讨论 的 都 不 相同 。 接 下 来 ， 实 现 经 典 向 量 模型 。 测 试 并 比较 由 
新 的 排序 模型 和 向 量 模型 产生 的 排序 。 这 可 以 通过 在 文档 集 上 运行 一 组 预选 的 查询 ， 比 较 两 
种 排序 公式 产生 的 答案 来 实现 〈 将 在 第 4 章 讨论 如 何 做 对 比 评 价 )。 尝 试 着 改进 新 的 排序 公 
式 ， 使 其 结果 和 向量 模型 的 结果 接近 。 很 有 趣 的 是 ， 这 不 简单 ， 也 不 容易 做 。 疝 量 模型 的 权 
重 公 式 植 根 于 信息 论 ， 提 供 了 一 种 对 一 般 文档 集 而 言 简 单 但 有 效 的 排序 公式 。 


3.3 其 他 集合 论 模型 
本 节 讨 论 其 他 三 种 集合 论 模型 ， 即 基于 集合 的 模型 、 扩 展 布尔 模型 和 模糊 集 模型 。 


3.3.1 基于 集合 的 模型 


基于 集合 的 模型 是 一 种 较 新 的 方法 ， 结 合 了 集合 论 与 向 量 空间 模型 的 排序 。 尽 管 它 同时 
有 布尔 模型 和 代数 模型 的 特征 ， 但 我 们 还 是 把 它 看 做 是 布尔 模型 。 基 于 集合 的 模型 的 基本 思 
想 是 采用 索引 项 之 间 的 相互 依赖 性 来 提高 检索 结果 。 索 引 项 之 间 的 依赖 信息 是 通过 引信 项 集 
(termset) 来 获得 的 ， 这 些 项 集 是 相互 关联 的 索引 项 的 集合 。 该 方法 在 各 种 文档 集 上 都 获得 
了 较 好 的 检索 结果 。 作 为 首 个 有 效 地 采用 了 索引 项 依赖 性 的 方法 ， 它 改进 了 一 般 文档 集 的 检 
索 结 果 ， 并 维持 了 低廉 的 计算 成 本 。 我 们 的 讨论 受 了 [1295] 很 大 影响 。 

1. 项 集 

基于 集合 的 模型 中 的 主要 概念 是 项 集 ， 它 是 用 来 替换 索引 项 的 。 也 就 是 说 ， 这 个 模型 不 
是 采用 标准 索引 项 作为 基本 分 量 ， 而 是 采用 项 集 对 文档 和 查询 建立 索引 。 让 我 们 把 项 集 的 概 
念 规范 化 。 

定义 HES = (kas k ots ka) 是 文档 集中 索引 项 的 子 集 。 若 S; 中 所 有 的 索引 项 
都 出 现在 文档 di 中 ， 那 么 我 们 说 项 集 S; 出 现在 di P. RN LASS, 的 文档 的 数量 。 

注意 ， 在 文档 集合 中 有 2' 个 项 集 。 然 而 ， 数 据 集中 实际 的 项 集 数 量 远 小 于 2 ， 因 为 大 
部 分 索引 项 的 组 合 没有 语义 含义 。 

定义 ”如 前 所 述 ， 设 上 是 文档 集中 索引 项 的 数量 。 那 么 ， 由 文档 集 内 所 有 项 集 组 成 的 集 
合 Vs 一 {Sis Sos "5 Sz} 是 文档 集 的 词汇 表 集 合 。 

举例 来 说 ， 考 虑 图 3-6 所 示 的 文档 集 。 为 了 简化 记号 ， 我 们 定义 
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a = k, = to f= k; = not k = k, = therefore 
b = k, = do g=k, =l l = k, = da 

c = k. = is h = k, = am m = k,, = let 

d =k, = be i = k; = what n= k, = it 


e=k, 一 or j = k; = think 
图 3-10 说 明了 采用 这 种 记号 约定 ， 文 档 集 所 具有 的 一 种 更 简单 的 表示 形式 。 假 设 用 户 定义 
了 查询 g 是 “to do be it” (或 者 9= {ae，6，d，zj}) 。 对 于 这 个 查询 ， 词 汇 表 集合 如 表 3-12 
所 示 。 我 们 观察 到 ， 对 于 由 a 形成 的 最 多 15 THR, 在 文档 集中 有 1l+, AMS.={a} 和 


Saam la, b, d}. 
bbblll 
modmnd 
d; 














图 3-10 图 3-6 中 的 文档 集 ， 现 在 用 字母 表示 索引 项 
表 3-12 saar {a, b, d, n) 的 词汇 表 集 合 










文档 
{di, dz, da} 
{dy} 
{dy} 
{di} 
ida} 













{di, 
{dis 
tdi» 
{da} 
{di} 
{di» 


a 
d3, da} 
dz, d3, da} 






















dz} 


一 项 重要 的 观察 是 ， 基 于 集合 的 模型 需要 计算 的 只 是 查询 的 项 集 。 因 此 ， 在 查询 处 理 
时 ， 只 需要 考虑 由 查询 生成 的 项 集 。 对 于 短 查询 ， 这 是 相当 有 效 的 。 

对 于 长 查询 ， 可 能 需要 计算 和 考虑 更 多 的 项 集 。 一 种 减少 项 集 数 量 的 方法 是 仅仅 考虑 那 
些 在 文档 集中 高 于 某 个 最 小 出 现 频率 的 项 集 。 我 们 把 这 一 想法 按 如 下 方式 规范 化 。 

定义 ”由 nn 个 项 构成 的 项 集 称 为 n 项 集 。 如 果 和 包含 nn 项 集 的 文档 数量 NV; 高 于 某 个 给 定 
HRE, MARA n ARS 称 为 是 频繁 的 。 这 意味 着 半 项 集 是 频繁 的 ， 当 且 仅 当 它 所 包含 
的 全 部 (n 一 1) 项 集 也 是 频繁 的 。 

后 面 的 现象 最 初 在 (21) 中 阐述 ， 这 加 快 了 与 每 个 项 集 关联 的 文档 集 的 计算 〈 即 项 集 倒 
排 表 ) 。 举 例 来 说 ， 重 新 考察 图 3-10 中 的 文档 集 。 设 项 集 的 频率 阔 值 是 2。 为 了 计算 查询 q 一 
{a, b, dy n} 所 有 的 频繁 项 集 ， 按 如 下 步骤 计算 更 大 的 项 集 直 到 找 不 到 项 集 为 止 。 

D 计算 频繁 的 1 项 集 及 其 文档 倒 排 表 。 

e 3S. 一 {di,d:} 

e S,— {di,ds,d,} 

© Sa— {di,ds,d3,ds} 

2) 组合 这 些 倒 排 表 来 计算 频繁 2 项 集 。 

© Sa —> {didz} 

© Su — {di,d;:,d,} 

3) 组 合 上 述 倒 排 表 ， 发 现 没 有 频繁 3 项 集 ， 停 止 。 
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我 们 注意 到 在 文档 集中 只 有 5 个 频繁 项 集 ， 并 且 没 有 频繁 项 集 的 规模 是 大 于 或 者 等 于 3 的 。 
最 重要 的 ， 这 个 例子 说 明 我 们 能 高 效 地 从 频繁 1 项 集 的 倒 排 表 计算 出 频繁 n 项 集 。 因 
此 ， 所 需 的 索引 结构 仅 是 标准 倒 排 索引 〈 见 第 9 章 ) 。 对 于 包含 最 多 4~5 个 项 的 查询 ， 这 是 
相当 快 的 。 
2. 排序 计算 
排序 计算 基于 向 量 模 型 ， 主 要 的 区 别 是 向 量 模型 是 由 项 集 形成 的 ， 而 不 是 由 索引 项 形成 
的 。 对 此 ， 我 们 给 项 集 一 个 权重 ， 如 下 所 示 。 
定义 ”给 定 查询 9， 由 索引 项 集合 产生 ， 设 {Sis S, o) 是 由 g 产生 的 所 有 项 集 的 集 
合 。 如 前 所 述 ， 设 Ai; 是 包含 项 集 S; 的 文档 数量 ， 并 设 N 是 文档 集中 的 总 文档 数量 。 定 义 
大 是 项 集 S; 在 文档 d; 中 的 原始 出 现 频率 。 对 于 (S, d), KFRRREW, 
We = 上 et x Fi; >0 
0 Fi; =0 
这 是 TF-IDF 权重 的 变 体 。 而且， 对 于 (Si，9) 有 类 似 的 计算 ， 并 给 予 项 集权 重 Wi.s。 


举例 来 说 ， 再 次 考虑 查询 9 二 {a,，5，d，n)， 文档 di ， 并 假设 频率 的 最 小 阅 值 是 1. K 
注 的 权重 值 如 表 3-13 所 示 。 


(3-20) 


表 3-13 ”基于 集合 的 模型 中 的 权重 















































项 集 TF-IDF 
Sa a, log(1+4/2) 4.75 
Ss . 1 十 log 2 log(1 +4/3) 2. 44 
Sa ， 1 十 log 2 log(1+4/4) 2. 00 
Sp n, 0 log(1+4/1) 0. 00 
Sa . 1 十 log 2 log(1+4/1) 4. 64 
Sat ， -log 2 log(1+4/2) 3.17 
Sia ， t log 2 log(1+4/3) 2. 44 
Sm , log(1+4/1) 0. 00 
5a 0:0 
Sand ， log(1+4/1) 4. 64 
Sin ts log(1+4/1) 0. 00 


定义 在 基于 集合 的 模型 中 ， 文 档 d 和 查询 g 被 表示 成 2' 维 项 集 空间 中 的 向 量 ， 如 下 
所 示 。 
dy = Wig Way yt Wey) 
T = Wia ,Wa ott Wea) 
其 中 项 集权 重 如 前 定义 。 文 档 d; 相对 于 查询 g 的 排序 〈 或 者 相似 度 ) 定义 为 文档 向 量 和 查 


询 向 量 之 间 的 夹 角 余 强 ， 如 下 所 示 。 





— — 5 Wi; X Wig 
d,* q 5, 
sim Cd; +q) = so = 3 > (3-21) 
ld,lxlal ld,| XIF] 


对 于 不 是 从 查询 g 中 生成 的 项 集 ，Wis 二 0。 也 就 是 说 ， 基 于 集合 的 模型 把 排序 计算 限制 在 
由 查询 生成 的 项 集 上 。 

文档 范 数 | 过 | 在 项 集 空间 上 难于 计算 。 因 此 ， 出 于 效率 的 考虑 ， 其 计算 限制 在 1 项 集 ， 
即 文档 范 数 在 索引 项 的 空间 中 计算 ， 就 像 向 量 模 型 那样 。 除 了 获得 快速 的 计算 外 ， 基 于 1 项 
集 的 文档 范 数 对 长 文档 不 利 ， 这 是 文档 归 一 化 的 主要 目的 。 
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再 次 考察 查询 9 一 {a，6b6，d，n)} 和 文档 di 。 为 了 计算 文档 di 的 排序 ， 我 们 需要 考察 7 
个 权重 为 非 零 的 项 集 : S.、S 、S.、S.、3S. 、Swm 和 Sws。 而 且 ， 我 们 需要 计算 1 项 集 的 文 
档 范 数 ， 如 下 所 示 。 





| di | = VW + Wht Wi + Wi (3-22) 


= VI 75 12.44 +4, 64 F 2. 007 
= 7,35 
JEP, Wer 一 (1 十 log2)log(1 十 4/1) 一 4. 64。 因 为 查询 对 所 有 文档 是 相同 的 ， 因 此 其 范 数 不 
会 影响 排序 ， 不 需要 包含 在 排序 计算 中 (与 向 量 模型 中 的 情况 一 样 )。 而 且 ， 查 询 项 权重 由 
各 自 的 IDF 权重 给 定 ， 因 为 这 种 情况 下 的 查询 项 频 都 是 1 (在 Web 中 这 也 是 很 常见 的 情 
况 )。 因 此 ， 文 档 a 的 排序 可 按 如 下 计算 : 
sim (di oq) = (Wart X Wasa + Ws X Wisa Waa X Waa + Wat X Wes 
Wat X Was + Weini X Woda + Waai X Wataa)/ | d, | 
=(4.75 X 1. 58 + 2. 44 X 1. 22 + 2. 00 X 1. 00 + 4. 64 X 2.32 + 
3.17 X 1.58 +2.44 X 1.22 +4.64 X 2. 32)/7. 35 
=5.71 
我 们 注意 到 有 7 个 项 集 和 di 的 排序 有 关 ， 而 不 仅仅 是 3 个 权重 为 非 零 的 1 项 集 〈 对 于 向 量 
模型 来 说 就 是 如 此 ) 。 
3. 使 用 闭 项 集 的 更 快速 排序 
频繁 项 集 的 概念 使 得 排序 计算 限制 在 那些 在 文档 集中 出 现 次 数 高 于 最 小 阔 值 的 项 集 上 。 
然而 ， 在 大 的 文档 集中 有 许多 频繁 项 集 。 这 是 个 问题 ， 因 为 长 查询 需要 考虑 的 项 集 的 数量 是 
非常 多 的 。 
一 种 可 能 的 方法 是 把 排序 计算 进一步 限制 在 一 组 更 小 数目 的 项 集 上 ， 这 可 以 通过 观察 项 
集 的 一 些 诸如 闭 包 之 类 的 属性 来 获得 。 对 此 ， 我 们 查看 项 集 之 间 的 关系 ， 以 及 它们 所 出 现 的 
文档 之 间 的 关系 。 例 如 ， 在 表 3-12 中 我 们 观察 到 
Sa C Sa 
S, C Sh 
然而 ， BRS, AS, 出 现在 相同 的 文档 集合 中 时 ，S. 和 S。 却 出 现在 不 同 的 文档 集合 中 。 这 
直接 影响 了 项 集 的 闭 包 ， 如 下 所 示 。 
定义 ”在 文档 集 C 中 ， 项 集 S; 的 闭 包 是 所 有 和 S 在 同一 个 文档 子 集中 共 现 的 频繁 项 集 的 
集合 。 给 定 S; 的 闭 包 ， 其 中 最 大 的 项 集 被 称 为 闭 项 集 ， 记 做 S。。 按 如 下 的 方法 进行 规范 化 。 
。 设 D;CC 是 频繁 项 集 S, 出 现 过 的 所 有 文档 的 子 集 。 
。 ASD) 是 由 所 有 出 现 且 仅 出 现在 D; 中 的 频繁 项 集 组 成 的 集合 。 这 是 S 的 闭 包 。 
那么 ， 闭 项 集 Se ， 满 足 如 下 的 性 质 
AS; € S(D;)|Ss, C S; 
举例 来 说 ， 表 3-14 显示 了 我 们 样 例文 档 集中 R314 文档 集 上 的 频繁 项 集 和 闭 项 集 ， 
所 有 的 频繁 项 集 和 闭 项 集 ， 其 中 假设 最 小 阅 最 小 频率 阅 值 等 于 2 








值 等 于 2。 

闭 项 集 是 有 趣 的 ， 因 为 它们 包括 了 出 现 
在 相同 文档 集合 内 的 较 小 的 项 集 。 因 此 ， 当 
我 们 计算 排序 时 使 用 一 个 闭 项 集 ， 那 些 已 经 
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被 融 括 在 内 的 频繁 项 集 就 不 必 包 含 在 内 了 。 例 如 ， 如 果 我 们 计算 文档 d 相对 于 查询 9 二 {a， 


b, d, n} 的 排序 ， 其 中 仅 考 虑 高 于 最 小 频率 阐 值 为 2 的 频繁 项 集 和 闭 项 集 ， 可 得 
sim (di 1g) = (Wart X Waa + Wats X Wadia + Wei X Wa) /| a, | 
=(2.00 X 1. 00 +3.17 X 1.58 +2. 44 X 1. 22)/7. 35 
一 1. 35 
我 们 注意 到 现在 有 5 个 项 集 影响 d 的 排序 ， 而 不 是 像 前 面 那样 有 ?7 个 。 我 们 也 注意 到 
di 的 排序 减 小 了 ， 所 有 含有 这 个 闭 项 集 的 文档 的 排序 也 都 是 这 样 ， 因 为 闭 项 集 (根据 定义 ) 
会 影响 一 组 相同 的 文档 集合 。 因 此 ， 如 果 把 排序 计算 限制 在 闭 项 集 内 ， 那 么 能 期 望 碱 少 查 询 
处 理 时 间 。 闭 项 集 数量 越 少 ， 查 询 处 理 时 间 也 减少 得 越 多 。 
除了 闭 项 集 外 ， 还 有 最 大 项 集 。 这 些 可 以 用 来 自动 地 从 查询 构建 出 一 组 子 查询 。 例 如 ， 
在 Web 中 ， 这 种 查询 构建 可 能 会 带 来 更 好 的 检索 结果 ， 如 [1297] 所 讨论 的 那样 。 


3.3.2 扩展 布尔 模型 


布尔 检索 简单 优雅 。 然 而 ， 由 于 它 不 支持 索引 项 权重 ， 因 此 它 也 不 生成 答案 集 的 排序 。 
因此 ， 输 出 的 规模 可 能 过 大 或 过 小 。 由 于 这 些 问 题 ， 现 代 信息 检索 系统 不 再 基于 布尔 模型 。 
实际 上 ， 大 部 分 新 系统 其 核心 采用 某 种 形式 的 向 量 检索 。 其 原因 是 向 量 空间 模型 简单 、 快 
速 ， 能 产生 更 好 的 检索 质量 。 另 一 种 方法 是 用 部 分 匹配 和 项 权重 的 功能 来 扩展 布尔 模型 。 这 
种 方法 使 得 人 们 可 以 把 布尔 查询 表达 式 和 向 量 模型 的 特点 结合 起 来 。 接 下 来 ， 我 们 要 讨论 的 
是 众多 模型 中 的 一 种 ， 它 用 向 量 模 型 的 特征 来 扩展 布尔 模型 。 

扩展 布尔 模型 ， 由 Salton、Fox 和 Wu [1412] 于 1983 年 引入 ， 基 于 对 布尔 逻辑 基本 假 
设 的 如 下 反思 。 考 察 一 个 合 取 布尔 查询 9 二 AAA。 根据 布尔 模型 ， 一 篇 仅 包含 k RE Rk, 
其 中 之 一 的 文档 和 另 一 篇 不 包含 其 中 任何 一 个 的 文档 都 是 不 相关 的 。 然 而 ， 这 种 二 值 决策 准 
则 通常 与 常识 不 相符 。 当 人 们 考察 纯粹 的 析 取 查询 时 ， 同 理 可 得 类 似 的 情况 。 

当 只 考察 两 个 索引 项 时 ， 我 们 把 查询 和 文档 在 二 维 图 中 绘制 出 来 ， 如 图 3-11 Bm. X 
od, 在 这 个 空间 中 通过 采用 与 二 元 组 ks d) 和 y di) 伴随 的 权重 wM w, RE 
位 。 假 设 这 些 权 重 被 归 一 化 ， 并 置 于 0 一 1 之 间 。 举 例 来 说 ， 这 些 权 重 可 以 算 成 是 如 下 的 归 
一 化 TF-IDF AF. 


faj IDF, 
max, fz; max; IDF; 


其 中 f.,; 是 索引 项 , 在 文档 d; PMU. IDF; EKIM MRR, HRS 
虑 ， 在 本 节 剩 下 来 的 部 分 ， 我 们 称 权重 wz, WE ww,,j 为 y， MAMET =w wy) 
为 点 dj; 二 (zx，y)。 

观察 图 3-11， 我 们 注意 到 两 个 特殊 的 地 方 。 首 先 ， 对 于 析 取 查询 qe =k Vk, A O, 
0) 是 最 无 须 关注 的 点 。 这 表明 可 以 把 到 CO. 0) 距离 作为 对 于 查询 qe 相似 度 的 度量 。 其 
次 ， 对 于 合 取 查询 qaa =k: Aky A C, 1) 是 我 们 最 关注 的 点 。 这 表明 可 以 把 到 点 C, 1) 
距离 的 补 作为 对 于 查询 gma 相似 度 的 度量 。 接 着 ， 归 一 化 这 些 距 离 ， 可 得 : 


sim (qa sd) = J 
sim (dant 1d) = 1—, [Goa $day (3-24) 


(3-23) 





Wj = 
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如 果 权 重 都 是 布尔 值 〈 即 w E10，1})， 那 么 文档 总 是 定位 在 四 角 中 的 一 角 ( 即 CO, 
0). €, 1). A, 0) 或 者 (1，1))， 并 且 sim(g,. d 的 值 被 限定 在 0、1/V2 和 1。 类 似 地 ， 
sim(Gma o d) 的 值 被 限定 在 0、1 一 1/V2 和 1。 然而 ， 通 常情 况 下 权重 是 采用 非 布尔 值 的 。 


(0, 1) (1,1) (0, 1) (1,1) 
k, 








k, 


din 

















(1,0) 








d, 
d, 
k, 


k 
图 3-11 扩展 布尔 逻辑 ， 考察 仅 由 两 个 索引 项 k Me, 构成 的 空间 


给 定 文档 集中 的 索引 项 的 个 数 :， 上 面 讨 论 的 布尔 模型 可 以 自然 地 拓展 到 考察 t 维 空间 
上 的 欧 几 里 得 距离 。 然 而 ， 一 种 更 全 面 的 泛 化 形式 是 如 下 的 采用 向 量 范 数 的 理论 。 

PP 范 数 模型 《p-norm model) 泛 化 了 距离 的 概念 ， 不 仅 包 括 欧 几 里 得 距离 ， 也 包括 也 
距离 ， 其 中 1p 和 0 是 新 引信 的 参数 ， 它 的 值 必须 在 查询 时 定义 。 那 么 ， 泛 化 的 析 取 查询 
可 以 表示 为 - 

| : da = ki V’ki VP VP in 
类 似 地 ， 泛 化 的 合 取 查询 可 以 表示 为 
dad = ky A?kz: NP NPRm 
对 应 的 查询 -文档 相似 度 现在 可 以 表示 为 
(Ett ty? 


m 





stm (Qo »d;) = 


tea de aay 


m 


sim (dna sd;) = 1— ( (3-25) 





其 中 ， 每 个 x; 表示 二 元 组 Cki» d;) 对 应 的 权重 Wij o 
如 上 定义 的 p 范 数 拥有 一 些 的 有 趣 性 质 ， 如 下 所 示 。 首 先 ， 当 p=1 时 ， 能 够 验证 
sim (qu +d) = sim Gang 1d)) = = + Täy 
其 次 ， 当 p 二 co 时 ， 可 以 验证 
sim (qu rd;) = max(z;) 
sim (qua 4d;) = min(z;) 
因此 ， 当 p= 二 1 时 , 合 取 与 析 取 查询 是 以 项 -文档 权重 的 累加 形式 来 评估 的 ， 就 像 向 量 模 型 的 
排序 公式 (计算 内 积 ) 一 样 。 而 且 ， 当 加 一 co 时 ， 查 询 是 根据 模糊 逻辑 〈 可 看 做 布尔 逻辑 的 
ZD 的 形式 来 评估 的 。 把 参数 p 在 1 一 ce 之 间 变 动 ， 我 们 能 把 p 范 数 的 排序 行为 从 向 量 模 
型 式 的 排序 改 为 布尔 模型 式 的 排序 。 这 是 相当 有 用 的 ， 并 且 是 支持 扩展 布尔 模型 的 一 种 好 
对 于 更 一 般 查 询 的 处 理 是 通过 把 操作 符 按 照 预 先 定 义 的 方式 聚合 起 来 。 举 例 来 说 ， 考 察 
查询 g=(hi APR V’k X d; 和 查询 之 间 的 相似 度 sim(g, dj) 可 以 如 下 计算 得 到 : 








93 








[ 94 | 


[95 | 


70 


第 3 章 信息 检索 建 模 





(1 (Catta y a9)? 


sim(q,d) = 9 (3-26) 
不 管 与 /或 操作 符 的 数量 是 多 少 ， 这 个 过 程 都 可 以 递归 执行 。 然 而 ， 如 果 我 们 把 析 取 式 
展开 为 合 取 式 ， 并 重新 计算 排序 ， 那 么 我 们 得 到 的 排序 和 上 述 值 不 同 。 也 就 是 说 ， 逻 辑 布 尔 
操作 符 不 保 序 ， 这 是 扩展 布尔 模型 的 缺点 。 
扩展 布尔 模型 的 另 一 个 有 趣 的 方面 是 ， 可 以 在 相同 的 查询 需求 中 采用 不 同 的 p 值 组 合 。 
例如 ， 查 询 





(ki Vk) A” hs 
可 以 用 来 表示 包 Ak 用 在 基于 向 量 的 系统 中 ,但 是 必须 要 求 & 出 现 〈 即 合 取 操作 可 看 做 是 
布尔 操作 ) 。 尽 管 不 清楚 这 个 额外 的 功能 是 否 有 任何 实际 的 作用 ， 但 这 个 模型 允许 了 这 个 功 
能 ， 并 以 自然 的 方式 实现 了 这 个 功能 (不 需要 笨拙 的 扩展 方法 来 对 付 特殊 情况 )。 
我 们 观察 到 扩展 布尔 模型 扩展 了 布尔 代数 ， 用 代数 距离 来 解释 布尔 操作 符 。 在 这 个 意义 
上 ， 这 是 真正 的 同时 包含 了 集合 论 模 型 和 代数 模型 性 质 的 混合 模型 。 为 了 简单 起 见 ， 我 们 选 
择 把 该 模型 归 类 为 集合 论 模型 中 。 


3.3.3 模糊 集 模 型 


把 文档 和 查询 表示 为 关键 词 的 集合 ， 所 产生 的 描述 ， 仅 仅 与 对 应 的 文档 和 查询 的 真实 语 
义 内 容 部 分 相关 。 文 档 对 于 查询 项 的 匹配 是 近似 的 或 模糊 的 )。 这 可 以 通过 如 下 方式 建 模 ， 
对 于 每 个 查询 项 定义 一 个 模糊 集 ， 每 篇 文档 在 这 个 集合 中 都 有 某 种 程度 的 隶属 度 〈 通 常 小 于 
1)。 用 模糊 论 的 概念 来 解释 检索 过 程 是 过 去 几 年 中 提出 的 各 种 不 同 的 模糊 集 信息 检索 模型 的 
基础 。 这 里 我 们 不 去 回顾 那么 多 模型 ， 而 是 集中 在 一 个 特殊 的 模型 ， 其 描述 和 本 章 中 已 经 描 
述 的 模型 匹配 得 很 好 。 我 们 的 讨论 是 基于 由 Ogawa, Morita 和 Kobayashi [1224] 提出 的 用 
于 信息 检索 的 模糊 集 模型 。 在 这 之 前 ， 我 们 快速 地 介绍 一 些 基 本 概念 。 
1. 模糊 集 理 论 
模糊 集 理论 [1763] 处 理 边界 不 明确 的 类 的 表示 。 主 要 的 思想 是 给 类 中 的 每 个 元 素 赋予 
一 个 隶属 函数 。 该 函数 的 值 介 于 区 间 [0，1]， 其 中 0 表示 没有 隶属 关系 ，1 对 应 着 完全 隶 
属 关系 。 介 于 0 一 1 之 间 的 隶属 关系 值 表 示 了 类 别 中 的 边际 元 素 。 因 此 ， 模 糊 集 中 的 隶属 关 
系 是 一 种 渐变 的 ， 而 不 是 像 传统 的 布尔 逻辑 中 那样 突变 的 概念 。 
定义 ” 论 域 U (universe of discourse) 的 模糊 子 集 和 由 隶属 函数 HaA: U> [0，1] 来 表 
示 ， 该 函数 给 U 中 每 个 元 素 赋予 介 于 区 间 (LO, 1] 的 值 pau). 
模糊 集 最 常 采用 的 三 项 操作 是 ， 模糊 集 的 补 ， 两 个 或 多 个 模糊 集 的 并 ， 两 个 或 多 个 模糊 
集 的 交 。 其 定义 如 下 所 示 。 
定义 RULER, AfBAUHASBRATHR, FLAZA 相对 于 U 的 补 集 。 此 
外 ， 假 设 x 是 苛 的 一 个 元 素 。 那 么 ， 
palu) = 1— palu) (3-27) 
HAUBCU) = max(pa(u) opp (u)) (3-28) 
pana (u) = mina Cu) ,pa (u)) (3-29) 
用 模糊 集 来 表示 模糊 性 和 不 准确 性 是 有 价值 的 ， 并 已 经 被 应 用 到 不 同 的 领域 中 。 下 面 我 
们 将 讨论 它们 在 信息 检索 中 的 应 用 。 
2. 模糊 信息 检索 
另 一 种 对 信息 检索 过 程 建 模 的 方法 是 使 用 同义词 典 ， 其 中 定义 了 索引 项 间 的 关系 。 基 本 
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的 思想 是 用 来 自 词典 的 相关 项 扩展 查询 的 索引 项 ， 使 得 额外 的 相关 文档 〈 即 除了 常规 检索 得 
到 的 文档 外 ) 也 能 被 用 户 的 查询 检索 到 。 同 义 词典 也 能 用 来 对 模糊 集 的 信息 检索 问题 建 模 ， 
如 下 所 示 。 

同义词 典 可 以 根据 项 间 相关 性 矩阵 C 来 构建 (在 [1224] 中 称 为 关键 词 连接 矩阵 )， 其 
行 和 列 是 与 文档 集中 的 索引 项 相关 联 的 。 这 正 是 3. 2. 3 节 中 定义 的 项 间 相 关 性 矩阵 ， 但 其 相 
KEREKE. ERRAT, MEC RI k Mk 之 间 的 归 一 化 相关 因子 ci 可 定义 为 
其 中 RAARENE, 的 文档 数量 ， 是 含有 索引 项 外 的 文档 数量 ,是 同时 含有 这 酚 
个 索引 项 的 文档 数量 。 这 样 的 相关 性 度量 是 相当 常见 的 ， 并 广泛 应 用 于 聚 类 算法 中 ， 第 8 章 
会 加 以 详细 讨论 。 

我 们 用 项 间 相 关 性 矩阵 C 对 每 一 个 索引 项 k, 赋予 一 个 模糊 集 。 在 这 个 模糊 集中 ， 文档 
d, 有 如 下 定义 的 归属 关系 mv : 


(3-30) 


Er = 


Kij = i [da 一 co) (3-31) 


k Ed, 


它 计 算 了 文档 d; 上 所 有 索引 项 的 代数 和 〈 这 里 实现 为 cv 补 的 代数 积 的 补 )。 若 文档 必 自己 
的 索引 项 和 索引 项 &, 相关 ， 那 么 该 文档 就 隶属 于 索引 项 k 的 模糊 集 。 只 要 d; 中 至 少 有 一 个 
索引 项 k, 和 索引 项 & ARBWKA (BP cuml), A uil, 并 且 索 引 项 ki 是 文档 dj 的 
一 个 良好 的 模糊 索引 项 。 如 果 d, 所 有 的 索引 项 都 仅 和 A, 松散 地 关联 ， 也 就 是 说 yi,; 一 0， 那 
ALRIS k 就 不 是 必 的 良好 模糊 索引 项 。 采 用 文档 d; 上 所 有 索引 项 的 代数 和 “(而 不 是 标准 
的 max 函数 ) 使 得 yi,; 的 值 变 得 平滑 。 

用 户 通过 提供 类 似 布尔 表达 式 的 查询 表达 式 来 表明 信息 需求 。 像 经 典 布尔 模型 一 样 ， 这 
个 查询 被 转换 为 析 取 范式 的 形式 。 例 如 ， 查 询 [gq 二 人 (ks V 一 k.)] 可 以 写成 [9 二 (1， 
1, DVG, 1, OVC, 0, 0)] 的 析 取 范式 形式 ， 其 中 每 一 个 分 量 是 和 三 元 组 Chas Ros 
k) 相关 联 的 二 值 带 权 向 量 。 这 些 二 值 带 权 向 量 是 9uvr 的 合 取 分 量 。 设 cci 表示 第 i 个 合 取 分 
量 。 从 总 体 上 看 ， 

mt = Cy V cz Vow Vee, 

其 中 请 是 gur 合 取 分 量 的 个 数 。 计 算 文 档 与 
查询 相关 度 的 过 程 类 似 于 经 典 布尔 模型 采用 
的 过 程 。 区 别 是 我 们 这 里 要 处 理 模 糊 集 (而 
不 是 明确 集 或 者 布尔 集 )。 我 们 接 下 来 看 一 个 
例子 。 


重新 考察 查询 [gq 二 &。 人 (k。V 一 k.)]。 设 \ is 
D, 是 和 索引 项 &。 相 关联 的 文档 的 模糊 集 。 ee 
这 个 集合 可 以 是 由 隶属 度 ws 大 于 某 个 预定 阔 | | 


(i K 的 文档 组 成 的 。 而 且 ， 设 互 BRAD, \ | 
的 补 集 。 模 糊 集 D, 对 应 于 索引 项 义 ， k 是 
RID k. 的 非 操 作 。 类 似 地 ， 我 们 可 以 分 别 DO 一 [Date 
定义 与 索引 项 k, Mk. 对 应 的 模糊 集 Ds 和 

图 3-12 查询 [9 二 hk 人 (kV 一 k.)] 的 模糊 集 ， 
D o 图 3-12 说 明了 这 个 例子 。 由 于 集合 都 是 eee CC; » i€{ l, A 3} 是 合 
模糊 的 ， 因 此 即使 文档 d, 中 没有 提 到 索引 项 取 分 量 。D, 是 查询 的 模糊 集 






D, 
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kas BXH d 仍 有 可 能 属于 集合 Dao 

图 3-12 中 的 查询 模糊 集 D, 是 ,jy 的 三 个 合 取 分 量 对 应 的 模糊 集 的 并 ， 这 三 个 分 量 这 里 
是 COL. cez 和 ccs 。 在 这 种 情况 下 ， 我 们 有 cc Spajpsjpejs Cci = faite A pei) Alco = 
Haj lp Apes FP pass pos M p EXN d; 分 别 对 于 模糊 集 D。、D MD. 的 隶属 
度 。 文 档 必 在 模糊 集 D, 的 隶属 度 pw 可 以 如 下 计算 得 到 : 


Ke 一 Hatata j 


3 
=]— [[a~p.,,) 
i=!1 


= 1 — (1 — pajkijo) X A pa jpo j A peg) X A — paj 1 = ps, (lo pe 

正如 已 经 看 到 的 ， 析 取 模 糊 集 的 隶属 度 是 由 代数 和 计算 得 到 的 ， 而 不 是 更 常见 的 max 
函数 。 而 且 ， 合 取 模 糊 集 的 隶属 度 是 由 代数 积 得 到 的 ， 而 不 是 更 常见 的 min 函数 。 用 代数 
和 与 代数 积 产 生 的 隶属 度 比 那些 用 min 和 max 函数 算得 的 情况 变化 得 更 平滑 ， 这 似乎 更 适 
合 信 息 检索 系统 。 

我 们 的 例子 说 明了 模糊 模型 是 如 何 对 与 用 户 查 询 相 关 的 文档 排序 的 。 这 个 模型 用 一 个 项 
间 相 关 性 矩阵 计算 文档 d 及 其 模糊 索引 项 之 间 的 关系 。 此 外 ， 这 个 模型 采用 代数 和 与 代数 
积 ( 而 不 是 max 和 mind 来 计算 文档 d; 在 用 户 查询 定义 的 模糊 集中 的 总 体 隶 属 度 。Ogawa、 
Morita 和 Kobayashi [1224] 也 讨论 了 如 何 把 用 户 的 反馈 信息 整合 到 模型 中 ， 但 是 这 样 的 讨 
论 超 越 了 本 章 的 范围 。 

用 于 信息 检索 的 模糊 集 模型 主要 在 模糊 理论 的 文献 中 讨论 ， 在 信息 检索 领域 并 不 流行 。 
此 外 ， 模 糊 集 模型 的 大 多 数 实验 仅 考察 了 小 规模 文档 集 ， 难 于 同时 进行 比较 。 除 此 之 外 ， 它 
们 对 信息 检索 问题 的 建 模 提供 了 有 趣 的 框架 ， 自 然 地 纳入 了 索引 项 相关 性 。 


3.4 其 他 代数 模型 
本 节 讨 论 三 种 其 他 的 代数 模型 ， 也 就 是 广义 向 量 空间 模型 (generalized vector space 
model), 、 潜 在 语义 索引 模型 (latent semantic indexing model) 和 神经 网 络 模型 (neural net- 


work model) 。 


3.4.1 广义 向 量 空间 模型 


如 前 面 讨 论 的 ， 三 种 经 典 模型 假定 了 索引 项 之 间 的 独立 性 。 对 于 向 量 模型 ， 该 假设 意味 
着 集合 (Fo ke oe R) 中 的 单位 向 量 是 线性 独立 的 ， 并 形成 了 我 们 所 关注 的 子 空间 的 
基 。 该 空间 的 维度 是 文档 集中 索引 项 的 个 数 1。 
通常 ， 索 引 项 间 的 独立 性 被 解释 为 更 严格 的 意义 ， 即 用 索引 项 向 量 间 两 两 正 交 的 性 质 来 
表示 ， 这 意味 着 对 每 一 对 索引 项 向 量 态 Me. WE, * F,=0. 1985 4A, Wong, Ziarko 和 
Wong [1718] 提出 了 另 一 种 解释 ， 其 中 索引 项 不 是 两 两 正 交 的 。 它 们 本 身 是 由 更 小 的 成 分 
构成 ， 这 些 成 分 来 自 手 边 的 特殊 文档 集 。 这 样 的 解释 导致 了 广义 向 量 空间 模型 。 
定义 ”给 定 文档 集中 索引 项 的 词汇 表 V 二 {kl，ks，…，k,}， 像 经 典 布尔 模型 那样 ， 考 
察 从 词汇 表 中 生成 的 所 有 Z 个 索引 项 合 取 分 量 。 每 个 合 取 分 量 称 为 最 小 项 m, (minterm)。 
所 有 最 小 项 的 列表 如 下 所 示 。 
Cki ,kz ska yet hy) 
m, 一 (0 ,0 ,0 ,-,0) 
mz 一 (1] ,0 ,0 ，…0) 
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m3 =(0 sl ,0 set 0) 
7724 二 (1 rl ,0 s**t ,0) 


My =(1 vl 41 1) 


. 1 包含 在 m, 中 
on(ism,) = 
0 其 他 
注意 on(1, m,)=1, on(2, m)=1 和 对 于 所 有 的 i> 2, onli, m)=0, B/W m 表 
示 了 不 包含 任何 索引 项 的 文档 中 常见 的 共 现 模式 〈 这 可 能 发 生 ， 如 当 手 动 选 择 索 引 项 集合 
时 )。 最 小 项 m 表示 了 仅 含 有 索引 项 ki 的 文档 所 特有 的 索引 项 共 现 模式 。 最 小 项 mz WH 
示 了 含有 所 有 索引 项 的 文档 。 
定义 ”对 任意 文档 d;， 存 在 一 个 最 小 项 〈 或 者 合 取 分 量 ) 恰好 包含 出 现在 该 文档 中 的 
所 有 索引 项 ， 并 且 不 包含 其 他 索引 项 。 我 们 称 这 个 最 小 项 为 c(Cdi)。 
广义 向 量 空间 模型 的 中 心思 想 是 对 每 个 最 小 项 赋予 一 个 单位 向 量 破 ， 并 假设 所 有 这 样 
的 单位 向 量 组 成 的 集合 形成 了 一 个 正 交 向 量 基 ， 如 下 所 示 。 
定义 ”让 我 们 定义 如 下 的 最 小 项 向 量 殉 的 集合 : 
1,2, .2: 
m, 一 (1,0,…,0) 


Mz = CO,1,°*°,0) 


my = (0,0,++,1) 
对 每 个 单位 向 量 殉 分 别 赋予 一 个 最 小 项 mm 。 而 且 ， 对 所 有 IAI, m+ mj =0. 

RH, RHEL. Hm 的 集合 是 两 两 正 交 的 。 那 么 ， 向 基肥 . 的 集合 可 以 被 看 做 是 广 
义 向 量 空间 模型 的 正 交 基 。 

向 量 元 之 间 的 两 两 正 交 不 表示 索引 项 之 间 的 独立 性 。 相 反 ， 马 向量 现在 与 索引 项 相 
X. AM, Am, 对 应 的 最 小 项 是 m= A, 1, =, 0, 该 最 小 项 表示 了 文档 集中 含有 索 
JIN k Mk, 而 不 包含 其 他 索引 项 的 文档 。 我 们 称 最 小 项 m 引起 了 索引 项 k， 和 ks 之 间 的 关 
联 性 。 如 果 我 们 更 仔细 地 考虑 这 点 ， 那 么 我 们 会 注意 到 广义 向 量 空间 模型 采用 了 如 下 的 思想 
作为 基础 ， 即 索引 项 在 文档 中 的 共 现 预示 了 这 些 词 之 间 的 关联 性 。 这 个 模型 的 主要 贡献 是 建 
立 了 一 套 正式 的 框架 ， 可 以 很 好 地 表示 索引 项 之 间 的 关联 性 。 

为 了 确定 索引 项 & 的 索引 项 向 量 马 ， 我 们 简单 地 累加 所 有 包含 索引 项 2 的 最 小 项 ， 并 
归 一 化 。 也 就 是 ， 

> om i,m cir mm, 


F, = 1 (3-32) 
| > Yom (imar)c8， 
Vr 
Cisr = D Wij 


dled =m, 
其 中 ， wij JE TF-IDF 权重 ， 可 以 用 式 (3-7) 计算 。 
这 些 式 子 提供 了 一 种 用 向 量 成 表示 索引 项 向 量 大 的 广义 定义 。 索 引 项 向 量 妃 由 所 有 包 
Ak 的 向 量 元 AM. ttm 向 量 ， 定 义 相关 系数 ci., 为 权重 ww;,; 的 和 。 每 个 wi,; 权 重 与 文 
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档 d; 相关 ， 该 文档 的 索引 项 共 现 模式 恰好 和 最 小 项 m, 相符， 即 m, =c(d;). 

仅 当 文档 集中 至 少 存在 一 篇 文档 符合 最 小 项 的 索引 项 共 现 模式 时 ， 该 最 小 项 才 值得 关 
注 ， 这 种 情况 称 为 是 激活 的 《〈active) 。 至 多 有 N 个 最 小 项 是 激活 的 ， 其 中 N 是 文档 集中 文 
档 的 数量 。 因 此 ， 排 序 计 算 不 像 式 〈3-32) 中 那样 需要 数量 为 指数 级 别 的 最 小 项 。 

TER, ABR + k, 现在 可 以 用 来 量化 察 引 融 和 和 A 之 间 的 相关 程度 。 例 如 ， 


> 


kh. &, = Don Gsm) Xe Xon (jsm,) X cj (3-33) 


这 是 量化 索引 项 相关 性 的 好 方法 。 

在 经 典 向 量 模型 中 ， 文 档 d 和 用 户 查询 分 别 表示 成 d, 一 Zwij BAG = D w Ro 
在 广义 向 量 空间 模型 中 ， 利 用 式 3-32) 可 以 将 这 些 表 示 形 式 直接 转换 为 最 小 项 向 量 欧 。 于 
是 ， 使 用 标准 余弦 相似 度 函 数 ， 可 以 用 得 到 的 志 和 全 向量 计算 排序 。 

从 广义 向 量 空间 模型 计算 得 到 的 排序 结合 了 标准 的 项 -文档 权重 w 和 相关 系数 ci., 。 然 
而 ， 采 用 项 间 相 关 性 不 一 定 得 到 更 好 的 检索 质量 ,我 们 并 不 清楚 在 哪 种 情况 下 广义 模型 优 于 
经 典 向 量 模型 。 而 且 ， 广 义 模型 计算 排序 的 代价 在 大 的 文档 集中 是 相当 高 的 ， 因 为 在 这 种 情 
况 下 ， 激 活 的 最 小 项 〈 即 那些 需要 用 来 计算 太 向 量 ) 的 可 能 与 文档 集中 文档 的 数量 成 正比 。 
除了 这 些 缺点 外 ， 从 理论 角度 看 ， 广 义 向 量 空间 模型 的 确 引 人 了 很 重要 的 新 想法 。 


3.4.2 潜在 语义 索引 模型 


正如 之 前 讨论 的 ， 通 过 索引 项 集合 来 总 结 文档 和 查询 的 内 容 会 导致 糟糕 的 检索 质量 ， 这 归 
答 于 两 点 。 首 先 ， 许 多 不 相关 文档 可 能 包含 在 答案 集中 。 其 次 ， 无 法 检 出 未 被 查询 中 的 关键 词 
索引 到 的 相关 文档 。 造 成 这 两 点 的 主要 原因 是 基于 关键 词 集合 的 检索 过 程 固有 的 模糊 性 。 

文档 的 正文 是 叙述 性 的 ， 涉 及 客观 世界 中 的 事物 ， 我们 称 之 为 概念 ， 及 概念 之 间 的 关 
系 。 因 此 ， 把 文档 和 给 定 的 查询 匹配 可 能 基于 概念 匹配 而 不 是 索引 项 匹配 。 这 使 得 文档 即使 
没有 被 查询 项 索引 到 但 仍 可 以 被 检 出 。 例 如 ， 一 篇 文档 可 以 被 检 出 ， 因 为 它 和 另 一 篇 与 给 定 
查询 相关 的 文档 共享 了 概念 。 洪 在 语义 索引 (Latent semantic indexing) 是 处 理 该 问题 的 一 
种 尝试 。 

潜在 语义 索引 模型 [614] 的 主要 想法 是 把 每 篇 文档 向 量 和 查询 向 量 映射 为 由 概念 构成 
的 维度 空间 。 首 先 把 索引 项 映射 到 概念 维度 空间 上 ， 然 后 利用 这 些 映射 关系 来 对 文档 和 查询 
建 模 。 其 理由 是 在 约 化 〈 降 维 ) 的 概念 空间 上 的 检索 可 能 要 优 于 索引 项 空间 上 的 检索 。 在 论 
述 之 前 ， 证 我 们 定义 基本 术语 。 

定义 ”如 前 所 述 ， 设 上 是 文档 集 内 索引 项 的 数量 ， 信 是 文档 的 总 数量 ， 且 M=([m,,;] 
是 一 个 含有 t 行 N 列 的 项 -文档 矩阵 。 对 这 个 给 阵 的 每 个 元 素 mi 赋予 一 个 项 -文档 对 (k;， 
d) 的 权重 wii。 这 个 权重 zw 可 以 用 经 典 向 量 模型 的 TF-IDF 权重 来 生成 。 

潜在 语义 索引 建议 用 奇异 值 分 解 把 M 和 矩阵 分 解 成 三 个 部 分 ， 如 下 所 示 。 

M=K-S-D"™ 
EE K 是 项 间 相 关 性 矩阵 C 一 M， M 的 特征 向 量 构成 的 矩阵 〈 见 3. 2. 3 WR RE 
阵 的 描述 )。 和 矩阵 DT 是 由 文档 间 和 矩阵 MT > MLA BTR. ER S 是 由 奇 
异 值 构成 的 >Xxr 对 角 和 矩阵 ， 其 中 一 min(t，N)， 是 M 的 秩 。 

现在 考察 仅 使 用 S 的 前 * 个 最 大 奇异 值 及 其 在 K AD" 中 对 应 的 列 向 量 〈 即 忽略 S 中 其 
他 的 奇异 值 ) 。 结 果 产 生 的 M, 矩阵 秩 为 s， 它 从 最 小 均 方 误差 的 角度 看 最 接近 于 原始 的 M 
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和 矩阵。 这 个 和 矩阵 如 下 给 出 ; 
M, = K, + S, » DT 
FER s, s<r 是 约 化 概念 空间 的 维度 。 对 ， 值 的 选择 可 以 通过 平衡 两 个 相反 的 效应 来 达到 。 
HE. s 应 该 大 到 足以 允许 拟 合 所 有 真实 数据 的 结构 。 其 次 ，* 应 该 小 到 过 滤 掉 所 有 不 相关 
的 〈 在 传统 的 基于 索引 项 的 表 式 中 呈现 出 来 的 ) 具体 细节 。 
在 维度 为 s 的 约 化 空间 里 ， 任 意 两 篇 文档 的 关系 可 以 从 如 下 给 定 的 ML + M, 和 矩阵 获得 : 
M? - M, = (K,.S,. DT)" - K, «+S,» DT 

= D, +S, + KI «K, +S, + DT 

= D,-S,+-S,+ DI 

= (D, + S,) « (D, » S$,)" 
在 上 述 和 矩阵 中 ，(i，j) 元 素 量 化 了 文档 di Md, 间 的 关系 。 

给 定 用 户 查 询 ， 为 了 对 文档 排序 ， 我 们 仅 把 查询 建 模 为 原始 项 -文档 矩阵 M 中 的 一 篇 伪 
文档 。 假 设 将 查询 建 模 为 编号 为 0 OY. ABA. BEBE MT + M. 的 第 一 行 提供 了 所 有 文档 对 
于 查询 的 排序 。 

由 于 在 潜在 语义 索引 模型 中 使 用 的 矩阵 秩 为 s，st:， 且 sN， 因 此 它们 形成 了 对 文档 集 
中 文档 有 效 的 索引 方案 。 而 且 ， 提 供 了 去 除 噪声 在 基于 索引 项 的 表 式 中 ) 和 重复 的 方法 。 

潜在 语义 索引 模型 基于 奇异 值 分 解 ， 引 入 了 概念 化 信息 检索 问题 的 有 趣 方 法 。 这 体现 了 
作为 新 理论 框架 的 价值 。 但 从 实际 的 角度 看 ， 潜 在 语义 索引 还 没有 产生 令 人 振奋 的 结果 。 


3.4.3 神经 网 络 模型 


在 信息 检索 系统 中 ， 通 过 比较 文档 向 量 和 查询 向 量 ， 从 而 计算 出 排序 。 因 此 ， 为 了 计算 
排序 ,文档 和 查询 中 的 索引 项 要 被 匹配 和 确定 权重 。 神 经 网 络 是 众所周知 的 、 良 好 的 模式 匹 
配器 ， 自 然 会 被 想到 用 做 信息 检索 中 的 一 种 替代 模型 。 

现在 公认 ， 我 们 的 大 脑 是 由 数 十 亿 的 神经 元 组 成 。 每 个 神经 元 可 以 被 看 做 是 一 个 基本 的 
处 理 单元 ， 当 输入 信号 激励 时 ， 发 射 输出 信号 作为 反应 行为 。 由 神经 元 发 射 的 信号 通过 突 触 
连接 被 馈 人 其 他 神经 元 ， 这 些 神经 元 可 以 再 发 射 新 的 输出 信号 。 这 个 过 程 本 映 可 以 在 多 层 神 
经 元 上 重复 ， 并 通常 称 为 激活 扩散 过 程 。 因 此 ， 输 入 的 信息 被 处 理 了 〈 即 被 分 析 和 解释 了 )， 
这 可 使 大 脑 要 求 做 出 实际 的 反应 〈 比 如 肌肉 动作 ) 作为 回应 。 

人 类 大 脑 的 神经 元 网 格 纵横 交错 ， 神 经 网 络 
是 对 其 极 大 简化 后 获得 的 图 表示 形式 。 图 中 的 结 
点 是 处 理 单元 ， 而 边 则 起 到 了 突 触 连接 的 作用 。 
为 了 模仿 人 类 大 脑 内 突 触 的 强度 随时 间 变 化 的 现 
象 ， 神 经 网 络 中 的 每 条 边 都 被 赋予 了 一 个 权重 。 
在 每 个 瞬间 ， 结 点 的 状态 由 它 的 激发 水 平 〈 这 是 
一 个 关于 其 初始 状态 和 收 到 的 输入 信和 叶 的 函数 ) 
来 定义 。 根 据 它 的 激发 水 平 ， 结 点 A 可 能 发 送 
一 个 信号 给 结 点 B。 在 结 点 B 的 信号 强度 依赖 
于 结 点 A 和 B 边 上 的 权重 。 

信息 检索 的 神经 网 络 的 定义 如 图 3-13 所 示 。 
这 里 描述 的 模型 是 基于 [1697] 中 的 工作 。 查询 结 点 文档 项 结 点 “词汇 表 ) 文档 结 点 

我 们 首先 观察 到 图 3-13 中 的 神经 网 络 由 三 图 3-13 信息 检索 的 神经 网 络 模 型 
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屋 构 成 : 第 一 层 是 查询 项 ， 第 二 层 是 文档 项 ， 第 三 层 是 文档 本 身 。 注 意 这 个 神经 网 络 的 拓扑 
结构 和 图 3-15 中 推理 网 的 拓扑 结构 之 间 的 相似 性 。 然 而 ， 这 里 是 由 查询 项 结 点 发 送信 号 给 
文档 项 结 点 来 初始 化 推理 过 程 的 。 接 着 ， 文 档 项 结 点 本 身 可 能 产生 信和 号 到 文档 结 点 。 第 一 阶 
段 就 完成 了 ， 信 号 从 查询 项 结 点 传输 到 了 文档 结 点 〈 即 在 图 3-13 中 从 左 往 右 ) 。 

然而 ， 神 经 网 络 没有 在 第 一 阶段 信息 传播 后 停止 运作 。 可 能 轮 到 文档 结 点 产生 新 的 信号 
直接 发 送 到 文档 项 结 点 〈 这 就 是 文档 和 文档 项 结 点 间 是 双向 边 的 原因 ) 。 在 收 到 这 个 激励 后 ， 
文档 项 结 点 可 能 又 发 射 新 的 信号 直接 送 到 文档 结 点 ， 并 重复 这 个 过 程 。 在 每 次 迭代 过 程 后 ， 
信号 变 得 越 来 越 弱 ， 激 活 扩 散 过 程 最 终 停止 。 这 个 过 程 可 能 激活 了 文档 d,， 即 使 它 不 包含 
任何 查询 项 。 因 此 ， 整 个 过 程 可 以 解释 为 激活 了 内 建 的 同义词 典 。 

查询 项 结 点 被 赋予 了 一 个 最 大 值 为 1 的 初始 (并 固定 的 ) 激发 水 平 。 然 后 ， 查 询 项 结 点 
发 送信 号 到 文档 项 结 点 ， 该 信号 被 归 一 化 查询 项 权重 而; 削弱 。 对 于 基于 向 量 的 排序 ， 该 权 
重 可 以 从 为 向 量 模型 定义 的 权重 wR, HU: 


T, = — 


ieg 7 
| > 2 
Wig 
i=1 


其 中 归 一 化 是 通过 查询 向 量 的 范 数 来 进行 的 。 
当 信 和 号 抵达 文档 项 结 点 时 ， 它 们 可 能 直接 传送 新 的 信号 给 文档 结 点 。 这 些 信 和 号 被 归 一 化 
文档 项 权重 远 ., 削 弱 。 该 权重 可 以 由 式 (3-7) 定义 的 向 量 模 型 的 权重 rw. 产生， 例如 ， 


_ Wij 
Bay = 
Dw 
其 中 归 一 化 是 通过 文档 向 量 的 范 数 进行 的 。 


到 达 文 档 结 点 的 信号 被 累加 起 来 。 因 此 ， 在 首 轮 信号 传播 后 ， 文 档 d; 对 应 的 文档 结 点 
的 激发 水 平 按 下 式 给 出 





Wi, Wij = - = (3-34) 





这 正 是 经 典 向 量 模型 提供 的 排序 。 

为 了 提高 检索 质量 ， 神 经 网 络 在 首 轮 传播 后 接着 进行 激活 扩散 过 程 。 这 改变 了 初始 向 量 
的 排序 ， 类 似 于 用 户 相关 反馈 循环 〈 见 第 5 章 )。 为 了 使 这 个 过 程 更 有 效 ， 应 该 定义 一 个 最 
小 激活 靖 值 ， 使 得 低 于 该 阔 值 的 文档 结 点 不 再 发 送信 号 。 详 细 的 情况 可 以 在 [1697] 中 
找到 。 

没有 确实 的 证 据 表 明神 经 网 络 在 一 般 文档 集 上 有 更 好 的 检索 质量 。 实 际 上 ， 该 模型 还 没 
有 在 大 的 文档 集 上 广泛 测试 过 。 然 而 ， 神 经 网 络 给 出 了 一 种 建 模 的 新 范式 。 而 且 ， 它 使 得 可 
以 自然 地 检索 出 最 初 和 查询 项 没有 关联 的 文档 一 一 这 是 一 项 很 吸引 人 的 功能 。 


3.5 其 他 概率 模型 

本 节 讨 论 四 种 其 他 的 概率 模型 1) BM25 模型 ， 这 是 经 典 概率 模型 的 延伸 ; 2) 语言 
型 ， 这 是 使 用 文档 集中 索引 项 的 概率 分 布 作为 排序 基础 这 一 想法 的 现代 变 体 ;3) 随机 差异 
模型 ，4) 信念 网 模型 ， 这 是 贝 叶 斯 网 在 信息 检索 中 的 直接 应 用 。 
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3.5.1 BM25 模型 


BM25 模型 是 在 标准 概率 公式 (3-17) 的 变 体 上 经 过 一 系列 实验 诞生 的 。 这 些 实验 是 出 
于 这 样 的 观察 ， 即 在 经 典 向 量 模型 中 ， 好 的 索引 项 权重 计算 基于 三 个 原则 : 1) 反比 文档 频 
率 ; 2) MM; 3) 文档 长 度 归 一 化 。 式 3-17) 的 标准 概率 公式 涵盖 了 这 些 原则 的 第 一 条 ， 
但 没 包含 其 他 两 条 。 所 以 ， 用 项 频 和 文档 长 度 归 一 化 来 扩展 它 看 起 来 是 一 种 提高 结果 的 自然 
方法 。 这 个 推理 导致 了 在 Okapi 系统 C1366, 1367, 1368] 上 的 一 系列 实验 ， 并 产生 了 
BM25 排序 公式 。 

1.BM1、BM11 和 BM15 排序 公式 

最 初 ，Okapi 系统 使 用 式 (3-17) 作为 排序 公式 [1366]。 这 称 为 BMI 公式 ， 缩 写 BM 
表示 Best Match (最 佳 匹配 )。 

改进 排序 最 初 的 想法 是 在 式 (3-17) 中 引入 一 个 项 频 因 子 。 该 因子 在 一 些 转变 后 ， 演 
AEH 


Fij = 5S (3-35) 


xX Jij 
Ki + fij 
其 中 f;,; 是 索引 项 &; 在 文档 dj 的 频率 ，K, 是 通过 在 具体 的 文档 集 上 实验 获得 的 常数 ，Si 是 
AK, 相关 的 尺度 常数 ， 通 常设 为 Si 一 (天 :十 1)。 注 意 ， 如 果 设 Ki 二 0， 那 么 这 参数 变 成 1， 
对 排序 没有 影响 。 
下 一 步 是 把 文档 归 一 化 引入 公式 中 。 这 可 以 通过 将 上 述 的 式 子 改变 为 : 


fF',= SX (3-36) 





fij 
K, x len Cd; ) 
avg _doclen tf 
其 中 ien(d;〉 是 文档 d; 的 长 度 〈 例 如 文档 内 索引 项 的 数量 )，avg_doclen 是 文档 集 的 平均 文 
档 长 度 。 
除了 往 TF 因子 中 引入 上 述 所 示 的 文档 长 度 归 一 化 外 ， 接 下 来 的 方案 是 增加 一 个 依赖 于 
文档 和 查询 长 度 的 修正 因子 9j.。: 
avg _doclen — len(d;) 
Ge = Ka X len) X og doclen + len (d,) 
JOH, len(q) BAAKE (查询 内 索引 项 的 个 数 )， 且 Ks 是 常数 。 这 个 因子 不 依赖 于 和 文 


Ad 匹配 的 具体 查询 项 ， 仅 依赖 于 文档 和 查询 的 长 度 。 这 是 一 个 全 局 因子 ， 接 下 来 会 加 以 


(3-37) 





简单 的 介绍 。 
类 似 的 推理 可 以 被 应 用 到 查询 的 项 频 上 ， 从 而 得 到 一 个 额外 的 因子 : 
. = fing 一 
Fia = S XK, ETa (3-38) 


其 中 ， fi 是 索引 项 k; 在 查询 ag 中 的 频率 ， K; 是 常数 ， HS; 是 和 K; 相关 的 尺度 常数 ， 通 
常设 为 Sı =(K, +1). 
把 这 三 个 因子 引入 到 式 (3-17) 中 可 获得 不 同 的 BM (RI Best Matching) 公式 ， 如 下 所 示 。 


- N— ni + 0.5 
sim em (dj sq) ~ ,le( os ) 


. N—n,+0.5 
sim wis (djo) ~ Gia + >) Fij X Fig X log( 一 一 一 一 一 
BMS s kLgd,] ‘ ( ni 十 0. 5 ) 
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` 1 N—n +0.5 
St77 BM1 Cd; ,9) ~ Gia + 2, Fij x Fia x log( 5-5) 


Ht kla, dj] BR EqAk Ed; 的 简短 记号 。 在 [1373] 中 的 经 验证 据 表 明 ， 最 好 取 天 :一 
0， 这 可 以 从 公式 中 消去 修正 因子 9.,。 而 且 ， 尺 度 常 数 的 恰当 估计 值 是 S, 一 (Ki 十 1) 和 
Ss 二 (Ks 十 1)， 经 验证 据 表 明 ， 使 K, 非常 大 更 好 [1373]。 在 这 种 情况 下 ， 因 子玉 ,简单 地 简 
化 为 六 ,。 对 于 短 查询 ， 假 设 对 于 所 有 索引 项 fi 是 1。 这 些 想法 导致 了 如 下 更 简单 的 公式 。 


Nam 0.9) 


sim (dj >» ) 一 lo (3-39) 
pM idj >q Oy e( n, F0. 5 


` ~ K ADS N—n +0.5 
immis Cdi g Š, aK Fa <P 二 0 ) 


| Kit Df xlog( Nm +0: 
Sm smi (d; 9) P2 K, len (d; }) _ x loa( ni 十 0.5 ) 
avg _doclen h 


这 些 是 在 BM1, BM15 和 BM11 排序 公式 中 实际 使 用 的 公式 。 使 用 TREC 数据 获得 的 
经 验 结果 表明 BM11 一 致 地 优 于 BM15。 考 虑 到 文档 长 度 归 一 化 对 排序 的 重要 性 ， 这 并 不 
奇怪 。 
2. BM25 排序 公式 
BM25 是 结合 了 BM11 和 BM25 排序 公式 产生 的 。 其 动机 是 按 如 下 方式 结合 项 频 。 
B; = (Ki + Dfi 


O len(d;) 
K, [a bD) +b eee | This 


其 中 6 是 新 引 和 人 的 常数 ， 其 值 位 于 区 间 Lo, 1] 中 。 若 2 一 0， 上 述 该 式 子 简化 为 BM15 项 频 
AY; #6-1, ERA BM11 项 频 因 子 ; 5b 的 值 介 于 0 一 1 之 间 时 ， 该 式 子 提供 了 
BM11 和 BM15 的 一 种 结合 。 
BM25 模型 的 排序 公式 可 以 写 为 : 
Nom 0.5) 


3 djs ~ isj x | 
sim pM2s (dj sq) oy og( ni 十 0.5 


其 中 表达 式 Bi.; 中 的 K， 和 65 是 根据 经 验 确定 的 常数 。 举 个 例子 来 说 ，K' 王 1 是 一 个 在 实际 文 
档 集 上 运作 良好 的 合理 假设 [1373]， 而 5 应 该 接近 1 来 强调 BM11 公式 中 文档 长 度 归 一 化 
的 效果 。 比 方 说 ，2 一 0. 75 就 是 一 个 合理 的 假设 [1368]。 最 重要 的 是 ， 这 些 参数 的 值 能 通 
过 适当 的 实验 针对 具体 文档 集 进 行 精细 的 调整 。 

A (3-41) 如 今 是 BM25 模型 的 排序 公式 [1370], 与 原始 的 经 典 概率 模型 中 的 概念 不 
同 ，BM25 公式 能 在 完全 自动 的 模式 (用户 不 提供 相关 信息 ) 下 计算 。 而 且 ， 更 多 的 数据 表 
明 一 旦 进行 了 精细 的 调节 ， 该 模型 在 一 般 文档 集 上 可 以 产生 比 经 典 向 量 模型 更 好 的 结果 。 因 
此 ， 它 取代 了 向 量 模型 ， 被 用 做 评价 新 的 排序 方法 的 基准 。 





(3-40) 


(3-41) 


3.5.2 语言 模型 


HARA (language model) 用 于 许多 自然 语言 处 理应 用 ， 例 如 词性 标注 、 语 音 识别 、 
机 器 翻译 和 信息 检索 。 举 例 来 说 ， 从 事 语音 识别 的 研究 人 员 定 义 概率 分 布 来 对 口语 中 的 规律 
性 建 模 ， 并 用 它们 来 预测 序列 中 下 一 个 符号 是 某 个 特定 词 的 可 能 性 。 这 些 概率 分 布 称 为 语言 
模型 [1384]. 

语言 模型 定义 了 文档 的 概率 分 布 并 用 它们 来 预测 观察 到 查询 项 的 可 能 性 ， 从 而 推动 了 信 
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息 检 索 模 型 的 研究 。 其 想法 是 为 文档 集中 的 每 篇 文档 定义 语言 模型 ， 并 用 它 来 获得 给 定 查询 
的 似 然 度 。 也 就 是 说 ， 不 是 用 查询 去 预测 观察 到 的 文档 的 似 然 度 ， 而 是 用 文档 的 正文 去 预测 
观察 到 查询 的 概率 。 通 过 对 这 些 概 率 值 排 序 可 以 产生 文档 的 排序 。 

把 语言 模型 应 用 到 信息 检索 中 首先 是 由 KaltL864] 提出 的 。Ponte 和 Croftl1290] 随后 
开展 了 相应 的 工作 ， 他 们 进行 了 广泛 的 实验 ， 证 明了 语言 模型 优 于 经 典 向 量 模型 等 基准 模 
型 。 因 此 ，Ponte 和 Croft 的 工作 被 认为 是 在 信息 检索 中 运用 语言 模型 的 里 程 碑 ， 在 后 续 的 
章节 中 要 谈 到 。 然 而 ， 后 来 许多 研究 人 员 证 明 Kat 原来 的 方法 更 好 。 因 此 ， 我 们 首先 从 这 
种 方法 的 统计 基础 开始 。 

1. 统计 基础 

在 深入 研究 信息 检索 的 语言 模型 之 前 ， 让 我 们 简短 地 回顾 该 方法 的 统计 基础 。 我 们 的 讨 
论 是 基于 Liu 和 Croft 的 极 好 的 综述 [1042], 

设 S 是 由 出 现在 文档 集中 同一 篇 文档 中 的 > 个 连续 的 索引 项 构成 的 序列 。 也 就 是 ， 

S= kiskoo sk, 
n 元 语言 模型 使 用 马尔 科 夫 过 程 对 索引 项 序列 S 的 出 现 赋予 一 个 概率 值 ， 如 下 所 示 。 


P,(S) = [[ Pe [ki Ria kian) 


其 中 ?是 马尔 科 夫 过 程 的 阶 。 该 分 布 基本 上 是 多 项 分 布 ， 其 中 某 个 索引 项 出 现 的 概率 依赖 于 
文中 出 现在 它 之 前 的 ”一 1 个 索引 项 的 情况 。 若 * 一 2， 则 我 们 有 了 一 个 二 元 语言 模型 ， 因 为 
参数 估计 基于 一 对 词语 之 间 的 共 现 信息 。 若 n 二 1， 则 我 们 有 了 一 个 一 元 语言 模型 ， 因 为 参 
数 估计 基于 词语 单独 出 现 的 概率 。 

对 于 像 语音 识别 和 机 器 翻译 这 样 的 应 用 ， 词 语 的 顺序 是 非常 重要 的 。 因此， 通常 采用 三 
元 语言 模型 等 高 阶 模型 。 这 些 模 型 计算 代价 更 加 昂贵 。 举 例 来 说 ,估计 索 引 项 k 在 一 元 语 
言 模型 中 的 概率 只 需要 计算 PCk)。 在 三 元 语言 模型 中 ， 相 辣 的 估计 需要 计算 文档 集中 所 有 
Wek 结尾 的 三 元 组 ， 即 所 有 形 如 P(k; |k;-1，k;-s) 的 概率 。 幸 好 ， 在 信息 检索 的 情况 下 ， 
词 序 的 影响 是 不 明显 的 。 因 此 ， 一 元 语言 模型 已 经 被 广泛 使 用 〈 即 索引 项 的 独立 性 假设 )， 
正如 我 们 在 本 章 大 部 分 中 做 的 那样 。 

2. 基于 多 项 过 程 的 语言 模型 

语言 模型 中 的 排序 是 通过 估计 P(glM;〉 获 得 的 。Ponte 和 CroftL1290] 采用 了 伯 努 利 过 程 
来 产生 查询 ， 而 Hiemstra[760],. Miller, Leek 和 Schwartz[1132]， 以 及 Song 和 Croft[ 1502] 
等 其 他 研究 人 员 ， 则 采用 了 最 初 由 KaltL864] 提出 的 多 项 过 程 。 现 在 它 是 信息 检索 中 由 语 
言 模型 生成 查询 的 标准 过 程 。 根 据 这 个 过 程 ， 如 果 假 设 索 引 项 之 间 是 独立 的 〈 一 元 模型 )， 
那么 我 们 就 能 获得 (我 们 的 讨论 极 大 地 受到 [1772] 的 影响 ): 

P(q|M;) = [[P |M) (3-42) 


在 两 边 取 log 函数 : 
log P(g|M;) = >) log P(k:|M;) 
keg 


= DD log Pe (hi |Mj)+ >) log Pe (2: |My) 


A ahd; k Ead, 


Pe (ki |M;) 
log( Ls Ki Mi)) + 5%log Pe (k: |My) (3-43) 
a, 08( pe (ki Mo) 2 og Pe Ck, | 


其 中 Pe 和 Pe 是 两 个 不 同 的 概率 分 布 。 前 者 是 查询 项 在 文档 中 的 分 布 ， 而 后 者 是 查询 项 不 


I 
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[108] 在 文档 中 的 分 布 。 对 于 第 二 个 分 布 ， 考 虑 到 该 查询 项 不 在 文档 di 中 ， 其 统计 量 是 从 所 有 的 


109 


文档 集 上 获得 。 因 此 有 : 
Pe (hi |M,) = aP Cki |C) (3-44) 
其 中 a; 是 对 应 于 文档 d 的 参数 ，P(&k; |C〉 是 文档 集 C 的 语言 模型 ， 例如 式 (3-49) 所 征 
义 的 。 
把 式 (3-44) RAA (3-43) 中 ， 得 到 : 
log P(q|M,) = Dy eE) + n, log a; + Sllog P(k; |C) 


~ 5 oe( p) H log a; (3-45) 
EF n 表示 查询 长 度 ， 最 后 的 累加 和 被 舍弃 了 ， 因为 它 对 所 有 文档 d 是 常数 。 排 序 函 数 现 
在 由 两 个 独立 的 部 分 构成 。 第 一 个 部 分 给 每 个 出 现在 文档 中 的 查询 项 赋予 权重 ， 根 据 表达 式 
log( Ps kl M2 ) 
a;P (ki |C) 

该 项 权重 直接 与 文档 中 的 项 频 成 正比 ， 与 文档 集中 的 项 频 成 反比 ， 这 和 向 量 模型 中 IDF 权 
重 的 作用 类 似 。 其 次 ， 参 数 a 可 以 用 于 文档 长 度 归 一 化 。 第 二 部 分 由 n, loga AE, AA 
出 现在 文档 中 的 查询 项 赋予 一 小 部 分 概率 块 。 

一 项 重要 的 观察 是 ， 结 合 多 项 过 程 和 平滑 方法 来 生成 查询 ， 会 自然 地 获得 一 个 包含 项 
频 、IDF 和 文档 归 一 化 的 排序 函数 ， 这 与 之 前 的 概率 模型 不 同 。 也 就 是 说 ， 平 滑 在 现代 语言 
模型 中 扮演 着 重要 的 作用 。 

3. 平滑 

在 我 们 之 前 的 讨论 中 ， 我 们 用 PIC) 估计 Pe (A: Mi)， 即 用 整个 文档 集 的 统计 量 来 
避免 给 不 出 现在 文档 中 的 索引 项 赋予 零 概率 。 估 计 Pe (k; |M;) 的 过 程 对 精细 地 调节 语言 模 
型 的 排序 公式 是 重要 的 ， 它 称 为 平滑 。 

一 个 流行 的 平滑 技术 是 把 文档 中 某 些 查 询 项 的 概率 块 移 到 不 出 现在 文档 中 的 索引 项 上 
[366]。 这 可 以 通过 修改 式 (3-42〉 中 的 PIM) 来 实现 ， 如 下 所 示 。 

Pe (有 Mi) kiEd, 
a;P (k;|C) 其 他 
其 中 Ps C |M;〉 是 文档 d, 中 索引 项 的 平滑 分 布 。 由 于 DUP (hy |M) = 1 ， 因 此 有 


>) Pe (ki |M;) + S'a, P (k: |C) = =] 
k €d, k €d; 


Plk; |M,) -| 


也 就 是 ， 
1— >) Pe Q |M;) 
wu 一 一 “2 3-46 
1 一 >) PCR IC) (346) 
k Ed, 
在 上 述 假设 ,平滑 参数 a; 也 是 PE (k; |M;) 的 函数 。 于 是 ， 通 过 对 Ps (4; |M;) 的 不 同 
定义 可 以 获得 不 同 的 平滑 方法 ， 我 们 接 下 来 要 加 以 讨论 。 更 多 平滑 方法 的 讨论 可 见 [1772]. 
(1) 使 用 Jelinek-IMercer 的 平滑 方法 
这 种 方法 的 思想 是 在 文档 频率 和 文档 集 频 率 分 布 之 间 进 行 线性 插值 ， 如 下 所 示 。 


O 注意 D P&E (hi | Mj) 过 1， 因为 有 些 概率 据 Pe (k; | M) 已 经 被 转移 到 不 在 文档 d; 中 的 索引 项 。 
A Gd, 
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fij 
SA SF 
其 中 AS 是 必须 被 经 验 定 义 的 参数 。4 越 接近 于 0， 索 引 项 的 文档 频率 的 影响 力 就 越 大 。 当 和 
向 1 变动 时 ， 索 引 项 的 文档 集 总 频率 的 影响 力 就 越 大 ， 即 平滑 的 效应 越 大 。 通 过 把 Pe Ck |M;) 
代 人 式 〈3-46) 中 ， 可 以 证 明 ww =A. 

(2) 使 用 Dirichlet 先 验 的 贝 叶 斯 平滑 

这 种 方法 也 称 为 Dirichlet 平滑 ， 其 中 的 语言 模型 是 多 项 分 布 ， 而 它 的 共 恩 先 验 概率 密 
度 符合 Dirichlet 分 布 。 于 是 有 : 


PE (ki|Mj;) 一 (1 一 人 


fics aby 
Sy HA 
如 前 所 述 ，》 越 接近 于 0， 索引 项 的 文档 频率 的 影响 力 就 越 大 。) 向 1 变动 时 ， 索 引 项 的 文 
档 集 频率 的 影响 力 就 增 大 了 。 但 是 ， 和 之 前 的 情况 相反 ， 它 只 是 和 文档 频率 部 分 混合 。 如 前 
PIR. aA WERK, 通过 把 Pe Cki |M,) 代入 式 (3-46) 中 ， 可 以 证 明 
a, = al ( (Sif. +a) 

(3) 平滑 计算 的 效率 

在 上 述 两 种 平滑 方法 中 ， 可 以 高 效 地 执行 计算 。 所 有 的 频率 计数 可 以 直接 通过 索引 获 
得 ， 也 可 以 为 每 篇 文档 预先 计算 w 的 值 。 因 此 ， 其 复杂 性 类 似 于 使 用 TF-IDF 权重 的 向 量 
空间 排序 。 

(4) 把 平滑 应 用 到 信息 检索 排序 中 

多 项 语言 模型 中 的 信息 检索 排序 是 用 式 (3-45) 计算 的 ， 如 下 所 示 。 

。 使 用 某 种 平滑 方法 计算 Pek |M;)( 上 面 讨论 的 两 种 方法 中 的 一 种 ， 或 文献 中 的 其 

他 方法 )。 

。 使 用 式 (3-49) 计算 P |C). 

。 用 刚 计算 出 的 PE (k;|M;) MPIC 的 值 ， 使 用 式 〈3-46) 计算 aj. 

。 用 Pe (k;|M;) 代替 PIM), HAR 3-45) 的 排序 。 

我 们 注意 到 平滑 在 排序 公式 中 起 着 关键 的 作用 ， 直 接 影响 结果 的 质量 ， 这 在 [1772] 中 
被 广泛 讨论 。 

4. 基于 伯 努 利 过 程 的 语言 模型 

在 Ponte 和 Croft[1290] 的 工作 中 ， 提 出 了 如 下 的 伯 努 利 过 程 。 

定义 ”给 定 文档 d;， 设 Mi 表示 该 文档 的 参考 语言 模型 。 这 个 语言 模型 允许 从 模型 估计 
生成 用 户 查 询 9 的 概率 ， 即 估计 条 件 概 率 PCg|M ;)。 

如 果 我 们 假设 索引 项 之 间 的 独立 性 ， 那 么 我 们 能 用 多 元 伯 努 利 过 程 计算 PCqIM,). 4 
下 所 示 。 


PlalM) = [LP M; x TP IM,) (3-47) 
其 中 PMO 是 索引 项 的 概率 。 这 类似 于 经 奥 概 率 模型 中 计算 排序 的 表达 式 。 
索引 项 概率 的 简单 估计 是 : 
P(k;|M,) = fi 


isj 
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它 简单 地 计算 了 从 文档 dj; 的 索引 项 集合 中 随机 抽取 索引 项 的 概率 。 然 而 ， 这 个 简化 的 公 
式 有 问题 。 如 果 查 询 项 不 出 现在 文档 中 〈 即 不 允许 部 分 匹配 )， 那 么 概率 会 变 成 零 。 为 了 克 
服 这 个 限制 ， 我 们 推测 ， 某 个 索引 项 不 出 现在 文档 中 不 能 表明 该 索引 项 和 文档 之 间 没 有 联 
系 。 相 反 地 ， 我 们 假设 未 出 现 的 索引 项 和 文档 有 一 定 关联 ， 其 概率 PJC 是 在 整个 文档 
集 C 中 观察 该 项 的 概率 。 

EE PIC 可 以 用 不 同 的 方法 计算 。 人 鲍 如 Hiemstral760] 提出 : 


ni 





P(k,|C) = (3-48) 


其 中 nn; 是 包含 索引 项 k; 的 文档 的 个 数 。 像 IDF 一 样 ， 它 对 P(k; |C) 进行 了 估计 。Miller、 
Leek 和 Schwartz [1132] 则 提出 : 
F. 
PCR; = 二 二 一 - 

(ki |C) SF (3-49) 
其 中 ， 

F; = Dif 
该 P(k;1C) 公式 估计 了 在 文档 集中 观察 到 索引 项 的 最 大 似 然 度 ， 这 里 采纳 该 公式 。 于 是 
按 如 下 公式 重新 定义 Pe; |M,): 





Sij 
+ Jij >O 
Xf 
PC Mi) = F, fis =0 
Dr A 


这 个 表达 式 仍然 有 一 个 基本 的 缺点 一 一 索引 项 的 概率 估计 基于 由 单一 的 文档 d; 构成 的 
小 样本 。 这 显然 不 是 我 们 所 希望 的 ， 因 为 这 会 导致 模型 的 不 稳定 。 为 了 让 模型 更 灵活 ， 我 们 
需要 基于 更 大 的 文档 样本 进行 估计 9 。 这 可 以 通过 计算 平均 值 达到 ， 如 下 所 示 。 
>} PC |M;) 
ilk, Ed, 
ERE, P) 是 基于 所 有 包含 索引 项 k 的 文档 构成 的 语言 模型 来 估计 的 。 因 为 从 更 大 的 
文档 库 中 获得 ， 这 是 一 个 更 加 稳定 的 估计 量 。 然 而 ， 它 对 所 有 包含 索引 项 及 的 文档 都 是 一 
样 的 。 也 就 是 说 ， 使 用 平均 概率 P) 来 预测 通过 特定 文档 d 的 语言 模型 产生 索引 项 &, 的 
概率 是 有 风险 的 。 
为 了 修正 这 个 问题 ， 定 义 索引 项 在 文档 d; 上 的 平均 频率 T: A 
Fis = PDX Df, 


也 就 是 说 ， 如 果 索 引 项 在 文档 中 的 出 现 是 由 平均 概率 Pe) 控制 的 ， 则 fi,; 估 计 了 索引 项 &; 
在 文档 a, 的 出 现 频率 。 使 用 f:.; ， 而 不 是 直接 使 用 fijo WH ki 在 d; 中 频率 的 估计 ， 其 风 
Be Ri 可 以 用 如 下 的 几何 分 布 来 量化 。 


PCR) = 





日 ”概率 估计 即使 在 大 样本 中 也 可 能 变 困 难 ， 因 为 短语 可 能 为 任意 长 度 ， 并 因此 在 样本 中 无 法 观察 到 。 
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对 于 文档 集中 经 常 出 现 的 索引 项 ，f;,; 污 0 E R;; ~~0。 对 于 在 文档 和 文档 集中 都 稀少 的 项 
fij~1, fij~!1 且 民 一 0.25。 
平均 概率 P) 的 风险 被 用 作为 一 种 混合 参数 ， 该 参数 允许 在 由 更 大 的 文档 样本 构成 
的 语言 模型 Mi 中 ， 更 好 地 估计 索引 项 ; 出 现 的 概率 。 让 我 们 把 这 个 概率 称 为 Pr (k; | Mi )。 
SRS TF A AOR: | 计算 Prik NO ) 。 
Peki |M R X PCR) fi; > 0 


— F; 
Pr (& |M;) = SF, 其 他 


在 这 个 公式 中 ， 如 果 R;,; 一 0， 那么 Prk; |M;) 主要 是 Pek, |M;) BA) BR ABE 否则 ， 它 混合 了 
PCR) 和 PCk;|M;)。 代 入 式 (3-47) 中， 得 到 ，; 
P(q|M;) = [[ Pek: |M,) x [[ [1— Prk: |M] (3-50) 
kiEq k ¢a 


该 式 计 算 了 从 文档 语言 模型 生成 查询 的 概率 。 


3.5.3 随机 差异 模型 


Amati 和 Rijsbergen [39] 提出 了 一 个 独特 的 概率 模型 ， 它 具有 语言 模型 的 某 些 特点 。 
其 思想 是 通过 度量 由 随机 过 程 产生 的 索引 项 分 布 和 真实 索引 项 分 布 之 间 的 差异 (divergence) 
来 计算 索引 项 的 权重 。 因 此 ， 其 名 字 是 随机 差异 模型 (divergence from randomness), KE 
型 基于 两 个 基本 假设 [7]， 如 下 所 示 。 
， 不 是 所 有 的 词语 在 描述 文档 内 容 上 都 是 同等 重要 的 。 含有 少量 信息 的 词语 在 整个 文 
档 集 C 内 是 随机 分 布 的 。 给 定 索 引 项 k;， 其 在 整个 文档 集 上 的 概率 分 布 是 PC |C), 
其 对 应 的 信息 量 由 一 logP(C& ICO 给 出 。 通 过 对 这 个 分 布 的 不 同 定义 ， 能 获得 索引 
项 在 文档 集中 不 同 的 随机 度 概 念 。 
索引 项 的 补充 分 布 可 以 通过 仪 考察 含有 上 &; 的 文档 子 集 获 得 。 这 个 子 集 称 为 精华 集 
Celite set) 。 给 定 文档 d; ， 对 应 的 概率 分 布 记 做 PCk;|14,)。 在 文档 d, 中 观察 到 &; 的 
概率 越 小 ， 这 个 索引 项 就 被 认为 是 越 稀少 、 越 重要 。 因 此 ， 这 个 索引 项 在 精华 集中 
带 有 的 信息 量 被 定义 为 1 一 PCA \d;). 
RIE KIPA PAM ORE wA 
j = (log P(k;|C)) X (1 — Pt; |d;)) (3-51) 
正如 在 平滑 中 一 样 ， 随机 差异 模型 同 时 党 察 了 这 引 项 在 文档 集中 的 分 布 和 索引 项 在 其 出 
现 的 文档 子 集中 的 分 布 。 文 档 di 对 于 查询 g 的 排序 RC(d;，g) 可 以 计算 为 
Rdj,q) = Dd) fig X wi (3-52) 


Et, fu ERIT k 在 查询 中 的 频率 。 

1. 整个 文档 集 上 的 随机 分 布 

为 了 计算 索引 项 在 文档 集 上 的 分 布 ， 可 以 考虑 不 同 的 概率 模型 ， 例 如 用 伯 努 利 实验 来 对 
索引 项 在 文档 集中 出 现 的 情况 建 模 。 假 设 含 有 1000 篇 文档 的 文档 集 和 在 该 文档 集中 出 现 10 
次 以 上 的 索引 项 六， 那么 在 文档 中 观察 到 索引 项 k 出 现 4 次 的 概率 是 


PIO = (Y) (1— 716066) 


这 是 标准 的 二 项 分 布 。 
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通常 , 设 p= 二 1/N 是 在 文档 中 观察 到 索引 项 的 概率 ， 其 中 N 是 文档 集中 的 总 文档 数 。 
在 文档 必 中 观察 到 索引 项 k; 出 现 fi.; 次 的 概率 由 如 下 所 示 的 二 项 分 布 描 述 。 


Pk: |0) = (F Jor xX (1 pEi (3-53) 
定义 
A; = pP x F; 
并 假设 当 N 习 co 时 p>0, (HA =pXF 保持 不 变 。 在 这 样 的 条 件 下 ， 能 把 二 项 分 布 近似 为 
泊 松 过 程 ， 这 样 得 到 








ef 

P(k;|C) = Fis! 

那么 ， 在 文档 集中 索引 项 上访 的 信息 量 可 以 按 如 下 计算 : 
— log P(k; |C) = — log (= ate ~) 


Fis} 

aw— fi; log a; +A; log e+ log(fi,;!) 

~ faj log( É) + (a, + BF ti fu )lowe + logra) (3-54) 
其 中 的 log 函数 以 2 为 底 ， 阶 乘 项 fi.;! 是 由 Stirling 公式 近似 的 : 

fula Jin ust) eii CORK TD 
一 种 不 同 的 方法 是 采用 Bose-Einstein 分 布 ， 并 用 几何 分 布 来 近似 它 ， 于 是 有 : 
P(k;|C) = pX phi 

其 中 p=1/0 +). RIN k: 在 文档 集中 对 应 的 信息 量 可 以 计算 为 ， 


— log P(k;|C) > 一 log() 一 fii x log( zf ) (3-55) 


这 提供 了 计算 索引 项 在 整个 文档 集 上 分 布 的 第 二 种 方法 。 

2. 精华 集 上 的 分 布 

为 了 计算 精华 文档 上 索引 项 的 分 布 所 对 应 的 信息 量 ， 可 以 应 用 拉 普 拉 斯 (Laplace) E 
续 定 律 ， 这 样 可 得 ， 


1 _ 
1— Pk, |d;) = For (3-56) 
另 一 种 可 能 是 采用 两 个 伯 努 利 过 程 的 比率 ， 于 是 有 : 
__ F+1 _ 
1— P(k,|d;) = aX SED (3-57) 
其 中 是 出 现 索引 项 的 文档 数量 ， 如 前 所 示 。 


3. 归 一 化 
这 些 公式 没有 考虑 文档 d; 的 长 度 。 这 可 以 通过 对 项 频 fi,; 进 行 归 一 化 来 实现 。 可 以 使 用 
不 同 的 归 一 化 方法 ， 例 如 ， 


aug _doclen 
fos = Sos X Tend) 


或 者 


:1 avg_doclen 
fis = fiy X log(1 t len(d;) ) 


其 中 avg_doclen 是 文档 集中 的 平均 文档 长 度 ，Lien(q;〉 是 文档 d 的 长 度 。 为 了 使 用 归 一 化 项 
频 计算 项 权重 ww ， 只 需要 把 频率 因子 fi 替换 为 它 的 归 一 化 形式 f 1;。 而 用 于 计算 Pk |C) 
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的 归 一 化 技术 可 以 和 计算 Pk ld) 的 归 一 化 技术 不 同 ， 这 里 我 们 考虑 使 用 相同 的 归 一 化 
技术 。 - 
通过 结合 计算 Pl M Pld) 的 不 同方 法 和 不 同 的 归 一 化 技术 ， 可 以 产生 不 同 
的 随机 差异 排序 公式 。 要 完整 地 讨论 这 些 排序 公式 ， 除 了 这 里 出 现 的 公式 外 ， 还 要 考虑 其 他 
分 布 ， 读 者 可 参考 [39]. 


3.5.4 贝 叶 斯 网 模型 


一 种 改良 信息 检索 中 概率 模型 的 方法 是 使 用 贝 叶 斯 信念 网 (Bayesian belief networks). 
信念 网 是 值得 关注 的 ， 因 为 它 提供 了 一 套 清 晰 的 形式 ， 结 合 了 给 定 文档 的 不 同 证 据 源 〈 如 过 
去 的 查询 、 过 去 的 反馈 循环 和 不 同 的 查询 式 )。 更 重要 的 是 ， 结 合 这 些 不 同 证 据 源 可 以 改进 
结果 ， 如 Turtle 和 CroftL1610] 所 展示 的 。 

这 里 ， 我 们 讨论 由 Turtle 和 Croftl1610] 提出 的 推理 网 模型 。 它 提供 了 Inquery 系统 
[280] 中 搜索 引擎 的 理论 基础 ， 以 及 由 Ribeiro-Neto 和 Muntz 提出 的 称 为 信念 网 模型 的 变 
[1352]. 

我 们 这 里 的 讨论 使 用 与 Turtle 和 Croft 原文 不 同 的 风格 。 尤 其 是 ， 我 们 更 关注 模型 改良 
中 概率 方面 的 讨论 。 为 了 推动 主要 的 设计 决策 ， 我 们 特意 回 到 贝 叶 斯 形式 上 。 我 们 认为 这 种 
方法 加 深 了 对 精妙 之 处 的 理解 。 在 此 之 前 ， 我 们 简单 地 介绍 贝 叶 斯 网 。 

1. 贝 叶 斯 网 

贝 叶 斯 网 [1251] 是 有 向 无 环 图 (Directed Acyclic Graph，DAG) ， 其 中 的 结 点 代表 随 
机 变量 ， 有 向 边 表示 这 些 变量 之 间 的 因果 关系 ， 并 且 这 些 因果 关系 的 强度 是 由 条 件 概率 表示 
的 。 某 个 结 点 的 所 有 父 结 点 〈 这 个 结 点 本 身 是 子 结 点 )， 被 认为 是 它 的 直接 原因 。 这 种 因果 
关系 是 由 有 向 无 环 图 中 从 父 结 点 直接 指向 子 结 点 的 连接 表示 的 。 网 络 的 根 没 有 父 结 点 。 

Ra, 是 贝 叶 斯 网 G WTA, Dz; DRAMA. CLP, 的 影响 是 由 任何 
满足 下 述 条 件 的 一 组 函数 F(x;，T,) 定义 的 : 

DFD) =1 同时 OF (xT) <1 
Vz; 


其 中 z; 也 表示 了 结 点 x, 对 应 的 随机 变量 的 状态 。 这 个 定义 是 完 
备 且 一 致 的 ， 因 为 积 [[F r) 组 成 了 一 个 G 内 结 点 的 联合 
Vi 


概率 分 布 。 

图 3-14 说 明了 联合 概率 分 布 P(zi，z，xzs，zi，xzs) WW 
叶 斯 网 。 在 这 种 情况 下 ， 网 络 中 显示 的 依赖 关系 允许 以 局 部 条 件 
概率 表达 联合 概率 分 布 贝 叶 斯 网 的 主要 优点 ) ， 这 是 一 种 自然 的 。 图。 14 由 时 斯 网 的 例 于 
表达 形式 ， 如 下 所 示 。 

P(x, s22, £3,425) = Px) PCa, | x1) PCr; | x1) Pz | 22523) Pars | x3) 
概率 PCr.) 称 为 贝 叶 斯 网 的 先 验 概率 ， 能 用 来 对 应 用 中 关于 语义 的 先 验 知识 进行 建 横 。 

2. 推理 网 模型 

在 概率 论 中 ， 两 派 最 传统 的 阵营 是 基于 频率 论 观 点 Cfrequetist view) 和 基于 认识 论 观 
点 (epistemological view) 的 。 频 率 论 观点 把 概率 看 做 是 和 偶然 性 规律 相关 的 统计 概念 。 认 
识 论 观点 把 概率 解释 为 某 种 程度 的 置信 度 ， 其 设 定 可 能 不 来 自 统 计 性 实验 。 第 二 种 观点 是 重 
要 的 ， 因 为 我 们 在 日 常生 活 中 经 常 在 没有 清楚 定义 产生 概率 的 统计 实验 的 情况 下 使 用 了 概率 
这 个 概念 。 
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推理 网 模型 [1610，1609] 采用 了 信息 检索 问题 中 的 认识 论 观 点 。 对 于 索引 项 、 文 档 和 
用 户 查 询 赋 予 随机 变量 。 文 档 d) 的 随机 变量 表示 观察 到 该 文档 的 事件 〈 即 该 模型 假定 文档 
在 搜索 查询 相关 文档 的 过 程 中 会 被 观察 到 ) 。 观 察 到 文档 d 给 它 的 索引 项 所 对 应 的 随机 变量 
赋予 置信 度 。 因 此 ， 一 篇 文档 被 观察 到 是 该 文档 的 索引 项 变量 置信 度 上 升 的 原因 。 索 引 项 和 
文档 变量 被 表示 成 网 络 中 的 结 点 。 每 条 边 从 文档 结 点 指向 索引 项 结 点 ， 表 示 若 文档 被 观察 
到 ， 则 会 提高 其 索引 项 的 置信 和 度 。 

用 户 查询 的 随机 变量 是 用 来 表示 这 样 的 事件 ， 即 系统 
满足 查询 的 信息 需求 。 这 个 随机 变量 也 由 网 络 中 的 结 点 表 
示 。 在 这 个 查询 结 点 上 的 置信 和 度 是 各 查询 项 关联 结 点 置信 
度 的 函数 。 因 此 ， 边 由 索引 项 指向 了 查询 结 点 。 图 3-15 说 
明了 信息 检索 中 的 推理 网 。 文 档 d; Hk. ki Mk, WHER 
引 项 。 这 是 通过 把 结 点 d; 指向 结 点 8;、k; Mk, KERR. 
查询 g 是 由 索引 项 和、 名 和 构成 的 。 这 是 通过 把 结 点 
kis k: 和 及 指向 结 点 g 来 建 模 。 注 意图 3-15 也 包含 了 三 个 
额外 的 结 点 ; o. a MI. BA g; 和 gq, 用 来 对 查询 g HH 
代 布 尔 表达 式 q 进行 建 模 〈 在 这 种 情况 下 ，@ 一 (有 Ak) V 图 3-15 基本 的 推理 网 模型 
k) 。 当 可 获得 这 额外 的 信息 时 ， 用 户 的 信息 需求 了 可 以 同时 由 9 和 gi 支持 。 

接 下 来 ， 我 们 会 把 注意 力 集中 在 由 观察 到 文档 d 对 于 查询 结 点 9 的 支持 上 。 之 后 ， 我 
们 讨论 考虑 同一 信息 需求 了 工 的 不 同 的 查询 表 式 的 影响 。 这 是 重要 的 ， 因 为 对 于 相同 的 信息 需 
求 ， 基 于 关键 词 的 查询 〈 例 如 gq) 可 以 与 类 似 于 布尔 表达 式 的 查询 表 式 (Mola) 结合， 来 
产生 更 好 的 检索 质量 。 虽 然 完整 的 推理 网 模型 也 包括 文档 结 点 和 查询 概念 结 点 ， 但 是 上 面 讨 
论 的 模型 总 结 了 这 种 方法 的 本 质 。 

可 以 使 用 一 种 简化 的 假设 ， 即 网 络 中 所 有 的 随机 变量 都 是 二 值 的 。 这 似乎 比较 武断 ， 但 
的 确 简化 了 建 模 任务 ， 并 且 泛 化 能 力 强 ， 可 以 获得 信息 检索 问题 中 所 有 重要 的 关系 。 

定义 ” 设 记 是 一 个 t ARE, WR=(ko k tes k) BR, BP kis ko es k 是 二 
值 随机 变量 ， 即 及 GE{0，1}。 这 些 变量 定义 了 天 的 2: 种 可 能 的 状态 。 定 义 

| jo RARE Rk: = 1 
onli, k) = 
0 其 他 
HH, hd, 是 和 文档 d 对 应 的 二 值 随机 变量 ， 并 设 g 是 用 户 查 询 对 应 的 二 值 随 机 变量 。 

注意 g 用 来 表示 查询 、 相 关 的 随机 变量 ， 以 及 网 络 中 对 应 的 结 点 。d; 和 索引 项 k; 也 是 
同样 的 情况 。 我 们 允许 这 种 在 句法 上 的 重 载 ， 因 为 我 们 指 的 是 查询 还 是 对 应 的 随机 变量 应 该 
是 显而易见 的 。 

对 于 查询 g， 根 据 观察 到 文档 必 能 提供 多 少 证 据 来 支持 g， 对 文档 d, 进行 排序 。 在 推 
理 网 中 ,文档 d, 的 排序 由 PClgqgAd;) HR, Hg Ad, 是 g= 二 1 和 dj 二 1 对 应 的 简短 表示 。 
总 体 来 说 ， 这 样 的 排序 是 由 如 下 给 定 : 

P(q A dj) = DPA di| R) XPO) 





=S PAd NR) 
Va 


= Š P (qld; A R)X Pid; A R) 
vk 
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= D P| R) X PCR |d;) X Pd,) (3-58) 
Yk 


Pla A dj) =1—P(q A d;) 
这 是 由 基本 条 件 和 贝 叶 斯 定理 获得 的 。 注 意 P(qid;ARD=Pql ke). AWA k 把 查询 结 
Aq 和 文档 结 点 dj 分 开 。 同 样 ， 记 号 g A dj; 是 (gq A dj;) 的 简短 表达 。 
文档 结 点 d; 的 实例 化 〈 即 观察 到 的 文档 ) 分 开 了 它 的 子 结 点 ， 即 索引 项 结 点 ， 使 得 它 
们 相互 独立 〈 详 见 贝 叶 斯 理论 ) 。 因 此 ， 给 每 个 索引 词 结 点 SL 赋予 的 置信 和 度 可 以 分 别 计算 。 
这 表明 PCR ld) 可 以 按 积 的 形式 计算 ， 于 是 从 式 (3-58) 可 得 : 
P(q A d) = DP Cal BD X Pa) x ( I PGla)x I Pa ld;>) 


Wi | onti =1 vi onci.=0 





P(q A dj) =1—Pq A d;) (3-59) 
其 中 PCR |d) =1— Pk, di)。 通 过 对 概率 P(q| ze). Pld) MP) 的 适当 定义 ,我 
们 能 使 推理 网 广泛 覆盖 许多 有 价值 的 信息 检索 排序 策略 。 接 下 来 ， 我 们 将 讨论 如 何 使 用 推理 
网 来 推导 布尔 模型 和 TF-IDF 排序 公式 。 我 们 首先 介绍 概率 Pd) 的 定义 。 

(1) 推理 网 的 先 验 概率 

由 于 文档 结 点 是 推理 网 的 根 结 点 ， 因 此 它们 有 一 个 由 我 们 选择 的 先 验 概率 分 布 。 这 个 先 
验 概率 反映 了 观察 到 文档 d 这 个 事件 的 概率 (为 简化 起 见 ， 假定 一 次 观察 单一 的 文档 结 
点 )。 由 于 我 们 对 任何 文档 并 没有 特别 的 先 验 倾 向 ， 因 此 我 们 通常 采用 均匀 先 验 分 布 。 例 如 ， 
在 推理 网 最 初 的 工作 中 [1610，1609]， 观 察 到 文档 di 的 概率 被 设 为 1/N， 其 中 N 是 系统 
中 文档 的 总 数量 。 因 此 ， 

Pa) = E PG) 一 1 一 训 (3-60) 

考虑 到 我 们 的 文档 集 是 由 N 篇 文档 组 成 的 ， 为 先 验 概 率 Pd) 选择 的 值 为 1/N 是 简单 
自然 的 定义 。 然 而 ， 对 于 Pd) 的 其 他 定义 也 是 值得 关注 。 例 如 ， 为 了 在 模型 中 包含 文档 
长 度 归 一 化 ， 我 们 能 得 到 如 下 的 P(ci ) 。 


P(d)) = 一 fu P(d,) = 1— Pd,) 

其 中 | |Ra aad, 的 范 数 。 因 此 ， 在 这 种 情况 下 ， 文 档 向 量 的 范 数 越 大 ， 其 对 应 的 先 验 
概率 就 越 小 。 这 样 的 定义 反映 了 我 们 对 于 向 量 排序 策略 的 先 验 知识 〈 这 是 在 文档 空间 中 归 一 
化 排序 )。 就 像 我 们 这 里 做 的 一 样 ， 具 体 应 用 环境 下 的 先 验 知识 应 该 在 贝 叶 斯 网 的 先 验 概率 
的 定义 中 体现 出 来 。 

(2) 布尔 模型 的 推理 网 

这 里 我 们 说 明 如 何 从 推理 网 推导 出 布尔 模型 。 首 先 ， 对 于 布尔 模型 ， 先 验 概率 由 式 (3-60) 
给 出 。 对 于 条 件 概 率 Pld) 和 Plg| ke), EMME: 
1 wR Ed, 
0 其 他 

P(k;|d;) 一 1 一 PE |d;) 

这 基本 上 表明 ， 当 文档 d 被 观察 到 时 ， 仅 和 文档 必 的 索引 项 对 应 的 结 点 是 激活 的 〈 即 有 一 
个 大 于 0 的 置信 度 )。 例 如 ， 观 察 到 文档 结 点 d;， 其 索引 项 向 量 是 恰好 由 索引 项 k, ki Mk, 
( 见 图 3-15) 构成 的 ， 该 向 量 激活 了 索引 项 结 点 (kes kis ko 而 不 激活 其 他 结 点 。 


Plki|d;) = 
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当 计 算 了 索引 项 结 点 的 置信 和 度 后 ， 就 能 用 它们 来 计算 对 于 用 户 查 询 a 的 证 据 性 支持 ， 如 
FER. 
= 1 如 果 c(qg) = c(B) 
Pal =] 
qi k 0 其 他 
PG| FP) =1— P| R) 
Hp elo) 和 ec( 玉 ) 是 与 g 和 天 对 应 的 合 取 分 量 ， 正 如 经 典 布尔 模型 中 定义 的 那样 。 
EER PlUl). Pte |d;) MPd) 的 定义 代 人 式 (3-59) 中 ， 可 以 容易 地 证 明 ， 检 
出 的 文档 集合 恰好 是 由 3. 2. 2 节 定 义 的 布尔 模型 返回 的 文档 集合 。 因 此 ， 推 理 网 可 以 轻松 地 
120] 推导 出 布尔 模型 。 
(3) 用 于 TF-IDF 排序 策略 的 推理 网 
文档 结 点 的 先 验 概率 由 式 〈3-60) 给 出 。 对 于 文档 ~ 索引 项 置信 和 度 ， 有 : 
P(k;|d;) =a+(1—a) X fı; X IDF; 








P(k;\d;) = 1— Pt; |d;) (3-61) 
其 中 Fu ADF, 是 归 一 化 的 项 频 和 反比 文档 频率 变量 ， 并 分 别 由 如 下 给 出 : 
fia = N 
log 全 
IDF: = TAR 
这 在 [1611] 的 第 8 章 中 定义 。 参 数 在 0 一 1 之 间 变 换 。 经 验证 据 表 明 a= 0.4 是 一 个 良好 
的 缺 省 值 。 
对 于 索引 项 -查询 项 置信 和 度 ， 有 : 
Palk) = hia X We (3-62) 
k Ea 


P@|k) =1— Pl P) 
其 中 w 是 一 个 参数 ， 用 来 在 查询 结 点 设置 可 达 的 最 大 置信 和 度 。 一 个 合理 的 缺 省 值 是 w,=1. 

把 式 (3-60)、 式 (3-61) MII (3-62) RAR 〈3-59)， 我 们 得 到 一 个 用 于 排序 的 TF- 
IDF 式 子 。 读 者 可 参考 [1611] 获得 在 模型 中 定义 条 件 概 率 的 其 他 方法 。 

我 们 注意 到 用 推理 网 计算 的 排序 和 用 向 量 模型 计算 的 排序 不 同 。 除 了 所 生成 的 TF-IDF 
排序 的 特殊 性 外 ， 推 理 网 被 证 明 在 一 般 的 文档 集 上 能 提供 好 的 检索 质量 。 其 原因 是 推理 网 能 
使 我 们 协调 地 结合 不 同 证 据 源 来 提高 最 终 的 排序 我们 接 下 来 对 此 加 以 讨论 。 

(4) 结合 证 据 源 

在 图 3-15 中 ， 对 于 用 户 的 信息 需求 [， 第 一 个 查询 结 点 g 是 基于 关键 词 的 标准 查询 表 
式 ， 第 二 个 查询 qa 是 类 似 于 布尔 表达 式 的 查询 表 式 〈 即 一 个 由 专家 搜集 的 额外 证 据 源 ) 。 这 
两 个 查询 表 式 对 于 信息 需求 了 共同 的 支持 度 可 以 用 或 操作 COR) RER 〈 即 1 二 gV qi)。 在 
这 种 情况 下 ， 由 推理 网 提供 的 排序 是 如 下 计算 的 ， 

PA A d;) = >)PCU|#) X PCR |d,) X P(d;) 


= D1 — PG| 2)PG@ |) X PCR |d;) X Pd,) (3-63) 
相 比 各 查询 结 点 相互 独立 的 情况 ， 这 可 能 产生 更 高 的 检索 质量 ， 如 [1610] 所 示 。 
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3. 信念 网 模型 

信念 网 模型 (belief network model)(1352] 是 推理 网 的 一 个 变 体 ， 将 文档 和 查询 分 开 ， 
其 网 络 拓 扑 结 构 上 略微 有 所 不 同 。 

像 推理 网 模型 一 样 ， 在 信念 网 中 ， 所 有 的 变量 都 是 Cay 
二 值 的 。 而 且 ， 每 个 索引 项 被 看 做 是 基本 概念 ， 所 有 索 
引 项 的 集合 被 看 做 是 概念 空间 。 任 何 索 引 项 的 子 集 被 解 
释 为 一 个 概念 ， 可 用 于 表示 一 篇 文档 或 者 用 户 查 询 。 这 <> TAT <> 
种 对 称 性 导致 了 和 推理 网 略 有 不 同 的 网 络 拓 扑 ， 如 图 3-16 Cay <p <> 
所 示 。 与 在 推理 网 模型 中 那样 ， 查 询 g 被 建 模 为 二 值 随 
机 变量 ， 指 向 这 个 查询 的 是 组 成 它 的 概念 索引 项 结 点 。 图 3-16 ”基本 信念 网 模型 

文档 的 处 理 类 似 于 用 户 查 询 〈 即 两 者 都 是 概念 空间 上 的 概念 ) 。 因 此 ， 与 推理 网 模型 不 
同 ， 文 档 结 点 被 组 成 文档 的 索引 项 结 点 所 指向 。 

与 给 定 查询 g 相关 的 文档 d; 的 排序 被 解释 为 概念 匹配 关系 ， 反 映 了 概念 d 被 概念 B 
盖 的 程度 。 

假设 

在 信念 网 模型 中 ， 采 用 P(a |o 作为 文档 d; 对 于 查询 9 的 排序 。 

通过 应 用 贝 叶 斯 定理 ， 能 得 到 Pd; =P AD PO., AW P(g) 对 于 文档 集中 所 有 
的 文档 都 是 常数 ， 因 此 得 到 Ped; |q)~PCd; 和 Aq)， 即 赋 给 文档 d; 的 排序 直接 正比 于 PCd; Aq). 
因此 ， 

P(d;|q) ~ >)P(d; A qi R) XP) 
We 

在 图 3-16 的 信念 网 中 ， 对 索引 项 变量 的 实例 化 在 逻辑 上 分 离 了 结 点 g9 和 4 ， 使 得 它们 相 

互 独立 〈 即 信念 网 的 文档 和 查询 部 分 在 逻辑 上 被 索引 项 结 点 的 实例 分 离 ) 。 因 此 ， 
Pedi |D ~ DIPA R) X P(q| R X PCR) (3-64) 
VE 


为 了 实现 推理 网 ， 需 要 定义 条 件 概率 P(g| k) 和 P(d | 天) 。 对 这 些 概 率 的 不 同 定义 允许 
对 不 同 的 排序 策略 建 模 〈 对 应 于 不 同 的 信息 检索 模型 )。 例 如 ， 对 于 向 量 模型 ， 概 率 PCg| 天) 
MPIO 按 如 下 方式 定义 。 定 义 向 量 色 : 

E, = RlonGi kD = 1A VigionG,k) =0 
HEr, 表示 当 结 点 是 激活 的 ， 而 所 有 其 他 结 点 都 不 激活 的 情况 下 大 的 状态 。 这 么 做 是 因为 TE 
IDF 排序 策略 需要 累加 各 个 索引 项 的 贡献 ， 而 大 使 我 们 能 单独 考虑 索引 项 k 的 贡献 。 接 下 来 有 : 





wis WRE = BN ong) =1 
Pal E) = 4 | Dy wha 
0 其 他 
P@| 2) =1—P@|®) 
而 且 ， 定 义 ， 
-一 WR = BF, A onlin d) = 1 
P(d;|k) = S} ai; 


i=1 
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P| kR) =1—P(d;| 2) 

BBA. H Pl(qd; lq》 定义 的 检 出 文档 的 排序 和 由 式 3-10 用 于 向 量 模 型 的 排序 就 恰好 相 
同 了 。 

4. 贝 叶 斯 网 的 计算 代价 

在 推理 网 模型 中 ， 根 据 式 (3-58)， 只 考察 含有 激活 文档 结 点 的 状态 。 因 此 ， 计 算 排 序 
的 代价 与 文档 集中 的 文档 数 成 线性 关系 。 对 于 传统 的 文档 集 ， 倒 排 表 等 索引 结构 ( 见 第 9 
章 ) 可 把 排序 计算 限制 在 那些 和 查询 有 共同 索引 项 的 文档 上 。 因 此 ， 计 算 推理 网 排序 的 代价 
和 计算 向 量 模型 排序 的 代价 有 着 相同 的 复杂 度 。 信 念 网 模型 的 情况 也 是 这 样 。 

因此 ， 这 里 讨论 的 贝 叶 斯 网 模型 在 排序 计算 上 没有 附加 明显 的 额外 代价 。 这 是 因为 这 里 
呈现 的 网 络 不 包含 环 ， 而 这 意味 着 完成 信念 传播 的 时 间 是 与 网 络 中 结 点 的 数量 成 正比 的 。 


3.6 其 他 模型 


本 节 讨 论 的 文档 检索 模型 和 排序 方法 不 是 直接 由 经 典 的 信息 检索 模型 衍化 而 来 的 。 这 些 
模型 履 盖 超 文本 、Web 排序 、 结 构 化 文本 和 多 媒体 。 我 们 先 在 这 里 加 以 简介 ， 然 后 在 后 面 
的 各 章 中 更 详细 地 讨论 。 


3.6.1 超 文 本 模型 


超 文本 为 超 文 本 标记 语言 (Hypertext Markup Language, HTML) 和 超 文本 传输 协议 
(Hypertext Transfer Protocol, HTTP) 提供 了 设计 基础 ， 是 Web 的 起 源 。 

我 们 接 下 来 回顾 超 文本 模型 背后 的 一 些 概念 ， 解 释 它 是 如 何 与 如 今 的 Web 联系 起 来 的 。 

一 个 和 文字 书写 相关 的 基本 概念 是 序列 (sequencing)。 书 面 文本 通常 被 看 做 是 序列 化 
阅读 。 读 者 无 法 通过 随机 阅读 文章 的 片段 来 理解 作者 要 表达 的 信息 。 人 们 可 通过 文章 的 结构 
来 跳 过 其 中 的 一 些 部 分 ， 但 这 可 能 导致 读者 和 作者 之 间 信 息 的 错误 传达 。 可 见 ， 在 大 部 分 书 
面 文章 里 隐 含 着 序列 化 的 组 织 结 构 。 当 读者 无 法 认识 并 依循 这 个 结构 时 ， 他 们 经 常 无 法 捕 提 
到 作者 所 要 表达 的 信息 的 本 质 。 

然而 ， 有 的 时 候 ， 我 们 寻找 的 信息 是 包含 在 整个 正文 中 的 ， 不 能 轻易 地 通过 顺序 阅读 来 
捕捉 到 。 例 如 ， 当 浏览 一 本 关于 人 类 战争 历史 的 书 时 ， 我 们 可 能 暂时 对 欧洲 的 局 部 战争 感 兴 
趣 。 我 们 知道 这 个 信息 是 在 这 本 书 中 ， 但 可 能 不 容易 找到 它 ， 因 为 作者 不 是 按照 这 样 的 目的 
来 组 织 他 的 作品 的 〈 他 可 能 按照 编 年 史 来 组 织 战争 ) 。 在 这 样 的 情况 下 ， 需 要 对 正文 有 不 同 
的 组 织 结构 。 由 于 不 能 重 写 全 文 ， 解 决 的 方法 是 除了 已 经 存在 的 结构 之 外 ， 再 定义 一 个 新 的 
组 织 结构 。 实 现 该 目的 的 一 种 方法 是 通过 超 文本 的 设计 。 

超 文 本 是 一 种 高 层次 的 、 交 互 式 的 导航 结构 ， 人 允许 在 计算 机 屏幕 上 非 连续 地 浏览 文本 。 
它 基本 上 由 结 点 构成 ， 这 些 结 点 在 图 结构 中 由 有 向 边 连接 。 每 个 结 点 表示 正文 的 一 个 区 域 ， 
可 能 是 书 中 的 一 章 、 文 中 的 一 节 ， 或 者 一 个 网 页 。 两 个 结 点 A 和 B 可 能 通过 有 向 边 Li 和 连 
接 ， 这 使 这 两 个 结 点 所 代表 的 文本 关联 起 来 。 在 这 种 情况 下 ， 读 者 可 能 会 在 阅读 A 结 点 相 
关 的 正文 时 转移 到 B 结 点 。 

超 文 本 链接 /as 最 传统 的 形式 是 附着 在 结 点 A 正文 内 特定 的 字符 串 上 。 这 样 的 字符 捉 被 
特别 标记 出 来 〈 例 如， 其 字符 可 能 有 不 同 颜 色 或 者 有 下 划 线 )， 表 示 有 潜在 的 链接 。 当 阅读 
文章 时 ， 用 户 可 能 遇 到 这 个 有 标记 的 字符 串 。 如 果 用 户 点 击 这 个 字符 串 ， 追 踪 其 潜在 的 有 向 
链接 ， 一 个 和 目标 结 点 关联 的 新 文本 区 域 就 在 屏幕 上 显示 出 来 了 。 

导航 超 文本 的 过 程 可 以 被 理解 为 遍历 有 向 图 ， 其 结 点 表示 文本 结 点 。 而 遍历 这 个 图 ， 读 
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者 会 看 到 由 超 文 本 设计 人 员 所 构想 的 信息 流 。 例 如 ， 重 新 考察 我 们 之 前 关于 人 类 战争 的 书 的 ”[24] 
例子 。 人 们 可 能 设计 一 个 由 两 个 不 同 的 Web 构成 的 超 文本 OE, Web 指 的 只 是 一 个 由 超 

文本 中 所 有 链接 的 某 个 子 集 形成 的 连通 分 支 )。 而 第 一 个 Web 可 能 被 设计 为 按照 编 年 史 组 织 

的 欧洲 局 部 战争 ， 第 二 个 Web 可 能 被 设计 为 按照 国家 组 织 的 欧洲 局 部 战争 。 这 样 ， 用 户 能 

获得 这 个 超 文 本 按照 不 同 的 组 织 结构 提供 的 信息 。 

当 超 文本 非常 大 时 ， 用 户 可 能 在 超 文本 的 组 织 结构 中 迷失 。 其 效果 是 用 户 可 能 开始 做 出 
糟糕 的 浏览 决定 ， 这 可 能 转移 他 原来 的 主要 目标 〈 通 常 是 找到 超 文本 中 的 某 条 信息 )。 当 这 
种 情况 发 生 时 ， 用 户 被 认为 是 迷失 在 超 空间 中 (dost in hyperspace)[836]。 为 了 避免 这 个 问 
题 ， 需 要 在 超 文本 中 包含 一 份 超 文本 映射 图 (hypertext map)， 显 示 用 户 在 哪里 。 这 个 映射 
图 最 简单 的 形式 是 一 个 显示 了 当前 被 访问 的 结 点 的 有 向 图 。 这 张 图 也 可 以 包含 用 户 至 今 已 访 
问 过 的 路 径 信 息 。 当 用 户 访问 已 经 访问 过 的 路 径 时 ， 可 以 用 这 张 图 来 提醒 用 户 。 

当 导 航 一 篇 超 文 本 时 ， 用 户 限制 在 由 超 文本 设计 人 员 力 图 构想 出 来 的 信息 流 中 。 因 此 ， 
设计 超 文 本 的 任务 需要 考虑 其 潜在 用 户 的 需求 。 这 表明 在 开始 实际 实现 这 个 超 文本 前 ， 需 要 
一 个 需求 分 析 阶 段 。 这 样 的 需求 分 析 是 非常 重要 的 ， 但 是 经 常 被 忽视 。 

而 且 ， 在 超 文 本 导航 阶段 ， 用 户 可 能 觉得 难于 自行 导 引 。 这 种 困难 甚至 发 生 在 有 导航 工 
具 的 情况 下 ， 例 如 我 们 讨论 的 超 文 本 映射 图 。 一 种 可 能 的 原因 是 超 文本 组 织 过 于 复杂 ， 含 有 
过 多 的 链接 。 为 了 避免 这 个 问题 ， 超 文本 应 该 有 一 个 更 简单 的 结构 ， 可 以 在 任何 时 候 被 用 户 
快速 地 记 住 。 例 如 ， 超 文本 可 能 按照 层次 化 的 结构 组 织 起 来 ， 使 得 导航 任务 变 得 简单 。 

超 文本 结构 的 定义 应 该 在 领域 建 模 阶段 完成 〈 在 需求 分 析 阶 段 之 后 ) 。 在 对 领域 建 模 之 
后 ， 用 户 的 界面 设计 应 该 在 实现 前 先 总 结 出 来 。 直 到 那 时 ， 我 们 才能 说 我 们 有 了 一 个 为 眼下 
的 应 用 设计 合适 的 超 文本 结构 。 然 而 ， 在 Web 中 ， 通 常 是 在 不 关心 需求 分 析 、 领 域 建 模 和 
用 户 界 面 设计 的 情况 下 做 出 网 页 来 的 。 因 此 ， 网 页 经 常设 计 得 很 糟糕 ， 不 能 提供 用 户 一 个 合 
适 的 超 文本 结构 来 支持 信息 搜索 任务 。 

对 于 大 的 超 文 本 ， 用 户 可 能 难于 在 整个 图 中 定位 感 兴趣 的 部 分 。 为 了 推动 这 个 初始 的 定 
位 步骤 ， 可 以 使 用 基于 索引 项 的 搜索 。 在 [1708] 中 ，Manber 讨论 了 这 种 方法 的 优点 。 


3. 6.2 基于 Web 的 模型 


第 一 个 Web 搜索 引擎 本 质 上 是 信息 检索 引擎 ， 其 排序 是 基于 我 们 这 里 讨论 的 信息 检索 
模型 。 主 要 的 区 别 是 : 1) 文档 集 是 由 网 页 (而 不 是 文档 ) 组 成 的 ; 2) HERRANN; 
3 文档 集 要 大 得 多 。 第 三 个 区 别 ， 即 大 量 的 网 页 ， 也 意味 着 仅 依 靠 正 文 排序 方法 不 会 像 从 
前 对 小 规模 文档 集 那 样 有 效 。 每 个 查询 词 检 出 了 太 多 的 文档 ， 导 致 了 单一 用 户 查询 的 结果 包 [125 
含 了 数 以 千 计 的 文档 ， 大 部 分 的 文档 和 用 户 不 相关 。 因 此 ， 这 些 引 擎 产生 的 检索 结果 经 常 不 
令 人 满意 。 

基本 的 信息 检索 引擎 缺少 了 一 项 关键 的 革新 一 一 利用 网 页 中 包含 的 链接 信息 来 修改 排 
序 。 有 两 个 基本 的 方法 ， 即 PageRank[263] 和 Hubs & Authorities[911]。 由 于 他 们 提供 了 
Web 中 的 特殊 排序 方法 ， 因 此 我 们 将 在 第 11 章 中 讨论 。 结 合 了 正文 (基于 向 量 的 排序 ) 和 
链接 信息 的 排序 方法 的 例子 可 见 [1478] 。 


3.6.3 结构 化 文本 检索 


在 本 章 中 讨论 的 所 有 信息 检索 模型 都 把 正文 看 做 是 没有 特殊 结构 的 字符 串 。 也 就 是 说 ， 
在 节 、 子 节 、 章 和 图 中 的 信息 没有 被 包含 在 模型 中 ， 也 没有 用 于 排序 。 然 而 ， 结 构 上 的 信息 
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可 能 对 用 户 的 特殊 搜索 是 重要 的 。 举 例 来 说 ， 某 个 用 户 需 要 检索 一 本 书 ， 却 忘 了 书 名 和 作 
者 。 但 是 ,用 户 记 得 这 本 书包 含 了 埃菲尔 铁塔 的 图 片 ， 其 小 节 的 题目 含有 词汇 “France”。 
在 这 种 情况 下 ， 定 义 查 询 “France” 是 没有 帮助 的 ， 因 为 这 会 返回 太 多 的 文档 。 用 户 有 他 感 
兴趣 的 那 本 书 足 够 多 的 信息 ， 但 是 无 法 用 我 们 已 经 定义 的 信息 检索 模型 来 定义 他 的 查询 。 

这 个 问题 的 解决 方法 是 采用 文档 的 文本 结构 来 提高 检索 。 为 了 效率 的 原因 ， 这 意味 着 要 
建立 特殊 的 索引 结构 ， 和 使 得 其 更 适合 对 结构 信息 编码 ， 我 们 将 在 第 13 章 中 讨论 。 


3.6.4 多 媒体 检索 


多 媒体 数据 ， 即 图 像 、 音 频 和 视频 ， 经 常 缺乏 对 应 的 文本 ， 使 得 它们 的 检索 更 具有 挑战 
性 。 尤 其 是 ， 我 们 这 里 讨论 的 信息 检索 模型 在 多 媒体 数据 上 收效 甚 微 。 需 要 采用 的 检索 策略 
和 排序 函数 与 文本 检索 的 策略 很 不 一 样 。 而 且 ， 甚 至 查询 定义 也 是 不 同 的 。 

除了 这 些 特 殊 性 外 ， 多 媒体 数据 是 Web 的 一 个 主要 部 分 。Web 确实 是 一 种 天 生 的 多 媒 
体 媒 介 。 因 此 ， 我 们 对 多 媒体 的 检索 方法 和 技术 很 感 兴趣 ， 并 在 第 14 章 非 常 详 细 地 讨论 。 


3. 6.5 企业 和 垂直 搜索 


企业 搜索 是 在 公司 文档 集 上 搜索 感 兴 趣 信息 的 任务 。 虽 然 大 部 分 的 信息 是 由 公司 的 文档 
集 提 供 ， 但 也 需要 用 Web 中 的 信息 来 补充 。 许 多 没有 出 现在 Web 中 的 问题 ， 例 如 隐私 性 、 
拥有 权 和 许可 ， 在 企业 搜索 中 是 重要 的 。 在 第 15 章 中 ， 我 们 详细 地 讨论 在 部 署 最 先进 的 企 
业 搜 索 方 法 的 过 程 中 遇 到 的 挑战 。 

垂直 文档 集 是 含有 某 给 定 领 域 知 识 的 专业 文档 的 文档 库 。 举 例 来 说 ，Lexis-Nexis 提供 
了 专注 于 两 个 主要 垂直 领域 的 全 文 搜索 ， 一 个 在 商业 领域 ， 另 一 个 在 法 律 领 域 。 同 样 ， 
Medline 提供 了 生命 科学 领域 ， 尤 其 是 生物 医药 方面 的 垂直 文档 集 上 的 搜索 。 更 多 的 关于 这 
些 系统 的 详情 见 第 16 章 。 

垂直 文档 集 展 现 了 关于 搜索 和 检索 方面 特定 的 挑战 。 因 此 ， 有 可 能 需要 利用 领域 相关 的 
知识 来 提高 结果 一 一 这 个 问题 我 们 这 里 不 讨论 。 为 了 涵盖 信息 检索 在 健康 方面 垂直 文档 集 的 
应 用 ， 有 兴趣 的 读者 可 以 参考 [539，588，480] 和 W. Hersh 关于 这 个 话题 的 扩展 读物 
[750，753，751，752，749]j。 为 了 涵盖 信息 检索 在 法 律 方面 垂直 文档 集 的 应 用 ， 读 者 可 以 
参考 [204, 481, 482, 638, 692, 1381]. 


3.7 趋势 和 研究 问题 


主要 有 三 类 产品 和 系统 能 直接 从 信息 检索 模型 的 研究 中 获 益 : 图 书馆 系统 、 专 用 检索 系 
统 和 Web. 

对 于 图 书馆 系统 ， 目 前 有 大 量 的 兴趣 关注 认 知 行为 问题 ， 尤 其 是 更 好 地 理解 用 户 采 用 哪 
种 标准 来 判断 相关 性 。 从 计算 机 科学 家 的 视角 看 ， 主 要 的 问题 是 关于 用 户 行为 的 知识 如 何 影 
响 排序 策略 和 系统 实现 的 用 户 界面 。 一 个 相关 的 问题 是 调查 如 何 整合 标准 的 商业 图 书馆 系 
统 ， 其 中 许多 是 基于 表单 和 布尔 检索 ， 以 及 Web 中 的 多 媒体 库 。 考 虑 到 如 今 的 学 生 有 网 上 
的 搜索 体验 ， 他 们 在 图 书馆 中 不 希望 遇 到 陈旧 的 图 书馆 系统 ， 我们 显然 需要 更 复杂 的 搜索 
功能 。 

专用 检索 系统 是 为 了 设想 的 特殊 需求 开发 的 。 例 如 ， 第 16 章 讨论 的 Lexis-Nexis MRA 
统 ， 提 供 了 获取 大 量 法 律 和 商业 文档 集 的 渠道 ， 是 垂直 信息 检索 系统 的 一 个 好 例子 。 在 这 样 
的 系统 中 ， 主 要 的 问题 是 如 何 检索 可 能 和 用 户 的 信息 需求 相关 的 〈 几 乎 ) 所 有 文档 ， 而 不 检 
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出 大 量 不 相关 的 文档 。 在 这 种 情况 下 ， 非 常 需要 复杂 的 排序 算法 。 由 于 基于 单一 的 证 据 源 的 
排序 不 可 能 提供 合适 的 答案 ， 因 此 结合 多 个 证 据 源 ， 尤 其 是 领域 相关 的 专业 知识 的 方法 是 合 
适 的 。 在 这 样 的 方向 上 ， 开 发 企业 分 类 体系 是 一 个 常用 的 方法 ， 即 使 这 种 基于 分 类 体系 的 搜 
索 策 略 需 要 仔细 地 调整 才能 产生 相关 的 结果 。 更 多 关于 企业 搜索 系统 的 趋势 和 研究 问题 ， 可 
见 第 15 章 。 

在 Web 中 ， 情 况 是 相当 不 同和 独特 的 ， 正 如 我 们 在 第 11 章 中 看 到 的 。 实 际 上 ，Web 用 
户 经 常 不 知道 他 要 什么 或 者 很 难 适当 组 织 其 需求 。 因 此 ， 关 于 高 级 用 户 界 面 的 研究 是 一 个 热 
门 的 话题 。 从 排序 引擎 的 观点 看 ， 一 个 有 趣 的 问题 是 研究 用 户 界 面 的 某 个 具体 范式 是 如 何 影 
响 排序 的 。 同 样 ， 使 用 用 户 的 偏好 信息 ， 通 常 称 为 个 性 化 (personalization) ， 继 续 值得 大 量 
关注 。 一 种 探索 用 户 偏 好 的 形式 是 在 结果 页 面 中 检查 用 户 点 击 的 模式 [17，841，844]， 但 
还 需要 设想 其 他 的 方法 。 


3.8 文献 讨论 

一 份 在 索引 项 权重 方面 非常 早期 的 工作 ， 是 1957 年 Luhn 完成 的 。 他 假设 文档 中 索引 
项 的 权重 和 该 文档 内 的 项 频 成 正比 [1062]。 早 在 1960 年 ，Maron 和 Kuhns[1093] 就 讨论 
了 信息 检索 中 相关 性 和 概率 索引 的 问题 。 在 反比 文档 频率 方面 开创 性 的 工作 是 Sparck Jones 
[1504], RRA, Salton, Yang 和 Wong 合作 ， 提 出 了 项 频 和 反比 文档 频率 的 结合 ， 获 得 
了 现在 公认 的 经 典 向 量 空间 模型 [1418，1416]。 不 久之 后 的 1976 年 ，Robertson 和 Sparck 
Jones 提出 现在 的 经 典 概率 模型 。 

7 年 之 后 ，Salton 和 McGill 写 了 一 本 书 [1414]， 成 为 该 领域 的 标准 。 这 本 书 彻底 覆盖 
了 信息 检索 里 的 三 个 经 典 模型 ， 也 就 是 布尔 、 向 量 和 概率 模型 。 另 一 个 里 程 碑 是 an Rijs- 
bergen[1624] 的 书 ， 除 了 覆盖 了 三 个 经 典 模型 外 ， 还 提供 了 一 份 关于 概率 模型 彻底 的 、 令 
人 欣赏 的 讨论 。 由 Frakes 和 Baeza-Yates[582] 编辑 的 书展 示 了 信息 检索 的 多 个 数据 结构 和 
算法 ， 并 更 贴近 当下 。 而 且 ， 他 包含 了 关于 Harman[701] 的 排序 算法 的 讨论 ， 提 供 了 关于 
从 1960—1990 年 的 信息 检索 历史 的 有 趣 观点 。 

布尔 运算 及 其 实现 在 [1667] 中 涵盖 。 用 于 信息 检索 的 布尔 查询 的 不 充分 性 早 在 Ver- 
hoeff, Goffman 和 Belzer[1636] 中 就 描述 了 。 把 布尔 表 式 迁移 到 其 他 框架 下 的 问题 获得 了 
大 量 的 关注 。Bookstein 讨论 了 把 布尔 和 带 权 重 的 检索 系统 [227」 合 并 起 来 的 问题 ， 以 及 在 
概率 检索 中 实现 布尔 结构 [229]. Losee 和 BooksteinL1050j] 把 布尔 查询 的 使 用 和 概率 检索 
结合 起 来 。Anick 等 人 [60] 提出 了 基于 自然 语言 的 布尔 检索 的 界面 。 基 于 词典 的 布尔 检索 
系统 在 [994] 中 提出 。 

向 量 模型 可 能 是 在 信息 检索 研究 领域 中 最 流行 的 模型 。 它 的 流行 很 大 程度 上 要 归功 于 
Salton 及 其 合作 者 [1413，1418] 的 长 期 研究 。 这 项 研究 的 大 部 分 以 Cornell 大 学 开发 的 
SMART 检索 系统 (1408, 1410, 1756] 为 中 心 。 向 量 模型 中 索引 项 的 权重 已 经 被 彻底 研 
究 。 简 单 的 索引 项 权重 早期 由 Salton 和 Lesk[1413] 使 用 。Sparck Jones 介绍 了 IDF 因子 
[1504, 1505], Salton 和 Yang 证 明了 其 在 提高 检索 上 的 效果 [1418]。Yu 和 Salton[1756] 
进一步 研究 了 索引 项 权重 在 最 终 排 序 中 的 效果 。Salton 和 Buckley[1410] 总 结 了 20 年 来 在 
SMART 系统 上 索引 项 权重 方面 的 实验 。Raghavan 和 Wong[ 1327] 提供 了 对 向 量 模型 的 严 
谨 分 析 。Singhal、Buckley 和 MitraL1484] 讨论 了 主轴 文档 长 度 归 一 化 ， 这 是 一 项 修改 归 一 
化 因子 以 提高 在 不 同文 档 集 上 结果 的 技术 。 

概率 模型 由 Robertson 和 Sparck Jones[1365] 介绍 的 ， 在 [1624] 中 进行 了 彻底 讨论 。 
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关于 该 模型 的 实验 性 的 研究 是 由 Sparck Jonest1506，1507] 进行 的 ， 使 用 从 用 户 得 来 的 反 
馈 信 息 来 估计 初始 概率 。Croft 和 Harper[452] 提出 了 不 使 用 用 户 的 反馈 信息 估计 这 些 概率 
的 方法 。Croft[450] 后 来 在 模型 中 增加 了 文档 内 频率 权重 。Fuhr 通过 多 项 式 检索 函数 讨论 
了 概率 索引 [597，598]。Cooper、Gey 和 Dabney[423] 和 之 后 的 Gey[622] 提出 在 概率 检 
索 中 使 用 logistic 回归 。Lee 和 Kantor[993] 研究 了 不 一 致 的 专家 判断 在 概率 检索 中 的 效果 。 
FuhrL599] 回顾 了 经 典 概率 模型 中 的 不 同 变 体 。CooperL422] 在 一 份 开创 性 的 论文 中 ， 提 
出 了 在 信息 检索 中 使 用 概率 排序 原则 的 麻烦 。 最 近 的 关于 概率 模型 的 综述 是 Robertson 和 
Zaragoza| 1369]. 

本 书 涵盖 的 (用 于 信息 检索 的 ) 模糊 集 模型 是 由 Ogawa, Morita 和 Kobayashi 提出 的 
[1224]。 在 信息 检索 中 使 用 模糊 理论 可 以 追 滴 到 20 世纪 70 年 代 Radecki[1314, 1315, 
1316, 1317], Sachs[1403] 和 TahaniL1553] 的 工作 。Bookstein[228] 提出 利用 模糊 运算 
符 处 理 带 权重 的 布尔 搜索 。Kraft 和 Buel 利用 模糊 集 来 泛 化 布尔 系统 [938]。Miyamoto、 
Kraft 和 Nakayama[1143] 讨论 了 使 用 共 现 和 模糊 操作 产生 的 伪 同 义 词典 。 后 来 ，Miyamoto 
和 Nakayama[1144] 讨论 了 在 信息 检索 中 使 用 这 个 词典 的 情况 。 有 些 相 关 的 内 容 是 将 模糊 
论 应 用 到 数据 库 系统 中 对 近似 答案 进行 排序 [1353]. 

扩展 布尔 模型 是 由 Salton, Fox 和 Wu[1412] 介绍 的 。Lee、Kim、Kim 和 Lee[996 ] 
讨论 了 在 扩展 布尔 模型 上 布尔 运算 的 评价 ， 而 该 模型 的 性 质 在 [995] 中 讨论 了 。 基 于 集合 
的 模型 是 由 P6ssas、Ziviani、Meira 和 Ribeiro-Netol1294] 介绍 的 ， 这 是 作为 一 种 使 用 索引 
项 之 间 的 相关 性 提升 结果 的 方法 。 关 于 查询 处 理 的 模型 扩展 在 [1293，1296] 中。 一 个 对 于 
模型 及 其 扩展 更 彻底 的 评价 可 以 在 [1295] PRE, 我们 用 来 作为 这 里 讨论 的 基础 。 

广义 向 量 空 间 模 型 是 于 1985 年 由 Wong, Ziarko 和 Wong[1718，1717] 介绍 的 。 洪 在 
语义 索引 于 1988 年 由 Furnas 等 人 [614] 引入 。 在 后 来 的 论文 中 ，Bartell、Cottrell 和 
Belew[ 153] 证 明 潜 在 语义 索引 能 被 解释 为 多 维 尺 度 变 化 的 特例 。 

对 于 信息 检索 中 的 神经 网 络 模型 ， 本 书 中 的 讨论 主要 基于 Wilkinson 和 Hingston[1697] 
的 工作 。 但 是 ， 我 们 也 能 从 Kwok 在 讨论 该 项 内 容 及 其 相关 主题 的 著作 [949，950，951， 
952] 中 获 益 。 

BM25 模型 是 一 系列 旨 在 提高 Okapi 系统 性 能 的 实验 所 获得 的 成 果 [1366，1367， 
1368], 4H Okapi 系统 参与 了 TREC 会 议 (详细 见 第 4 章 关 于 TREC 会 议 的 内 容 )。 更 多 
关于 BM25 的 信息 可 见 [1369]。 推 理 网 模型 是 由 Turtle 和 Croft[1609，1610] F 1990 年 
介绍 的 。Haines 和 Croft[ 693] 讨论 了 用 于 用 户 相 关 反 馈 的 推理 网 。Callan、Lu 和 Croft 
[323] 使 用 了 推理 网 来 搜索 分 布 式 文档 集 。Callan[319] 在 他 的 论文 中 讨论 了 推理 网 在 信息 
过 滤 中 的 应 用 。 信 念 网 模型 是 更 易 掌 握 的 推理 网 变 体 ， 由 Ribeiro-Neto 和 Muntz[1352] 提 
出 。 信 息 检索 中 的 贝 叶 斯 网 的 回顾 可 见 [445] 。 

语言 模型 最 初 由 KaltL864] 提出， 接着 是 Ponte 和 CroftL1270]， 他 们 的 工作 被 看 做 是 
把 语言 模型 应 用 到 信息 检索 中 的 里 程 碑 。 许 多 研究 紧 随 其 后 ， 例 如 Berger 和 Laffertyl187], 
Miller, Leek 和 Schwartz[ 1132], Hiemstra 和 Kraaijt762]。 研 究 人 员 提 出 了 许多 平滑 方 
法 ， 大 部 分 在 语音 识别 的 领域 里 。 在 本 章 中 ， 我 们 使 用 的 平滑 的 形式 是 Chen 和 Goodman 
[366]。 我 们 对 于 平滑 的 讨论 是 基于 Zhai 和 Lafferty[1772] 的 工作 。 信 息 检 索 中 语言 模型 的 
完整 论述 最 近 由 Zhai[ 1770，1771] RR. 

有 些 基 于 类 似 于 语言 模型 方法 的 相关 模型 ， 是 由 Amati 和 Rijsbergen(39] 提出 的 随机 
差异 模型 框架 (Divergence Form Randomness，DFR)。 随 机 差异 模型 基于 这 样 的 想法 ， 即 
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文档 内 索引 项 的 频率 与 文档 集 内 的 频率 的 差异 越 大 ， 这 个 项 携带 的 信息 越 多 。 这 意味 着 索引 
项 权重 应 该 是 与 文档 集 内 项 频 的 概率 成 反比 ， 其 中 后 者 的 概率 是 由 模型 的 随机 性 获得 。 用 于 
对 随机 性 建 模 的 分 布 ， 包 括 二 项 分 布 、Boise-Einstein 分 布 ， 以 及 Boise-Einstein 的 几何 近 
似 。 关 于 随机 差异 更 详细 的 讨论 ， 读 者 可 参考 Amati 的 博士 论文 138]. 

已 经 发 现 信息 检索 模型 可 以 用 于 文本 集 之 外 的 领域 ， 例 如 多 媒体 、 定 向 广告 和 数据 库 。 
对 于 信息 检索 在 多 媒体 中 的 应 用 见 第 14 章 。 对 于 信息 检索 在 定向 广告 中 的 应 用 见 [270， 
275，277，954，1319，1350j。 对 于 信息 检索 模型 在 数据 库 和 Web 数据 库 中 的 应 用 可 见 
[314, 315, 317, 471, 641, 1639], 

Web 是 一 个 松散 的 超 文 本 ， 阅 读 一 些 关 于 这 个 主题 的 文献 是 有 用 的 。 一 个 关于 超 文本 
的 经 典 参考 是 Nielson [836] 的 书 。 另 一 本 流行 的 参考 书 是 Shneiderman 和 Kearsley[1470] 
的 书 。Conklin[412] 给 出 了 该 领域 的 介绍 性 综述 。《Communications of the ACM) 贡献 了 
一 期 关于 超 媒 体 的 专辑 [410]， 其 中 详细 讨论 了 Dexter 模型 一 个 关于 基本 超 媒 体 概 念 
术语 和 语义 的 参考 标准 。 后 续 的 版 本 [411] 专门 用 来 描述 各 种 不 同 的 模型 ， 这 些 模型 支持 
超 媒 体 应 用 的 设计 。 对 于 Web 及 其 技术 的 专门 参考 文献 可 见 第 11 章 。 





95 


130 


第 4 章 | 


Modern Information Retrieval: The Concepts and Technology behind Search, 2E 


检索 评价 





4.1 介绍 

评价 信息 检索 系统 就 是 度量 系统 能 在 多 大 程度 上 满足 用 户 的 信息 需求 。 这 自然 是 困难 
的 ， 尤 其 是 考虑 到 不 同 的 用 户 对 于 相 则 的 结果 集 可 能 会 有 不 同 的 解释 。 虽 然 如 此 ， 我 们 依然 
可 以 定义 一 个 近似 的 指标 ， 平 均 而 言 ， 和 用 户 的 偏好 有 紧密 的 相关 性 。 在 本 章 中 ， 我 们 将 讨 
论 这 些 指 标 和 它们 的 应 用 。 

没有 合适 的 评价 方法 ， 我们 就 无 法 确定 信息 检索 系统 能 运转 得 多 好 ， 也 就 不 能 把 它 的 检 
索 质 量 和 别 的 信息 检索 系统 进行 客观 的 比较 。 因 此 ， 信 息 检 索 系 统 的 系统 化 评价 应 能 够 回答 
在 其 实际 日 常 运行 中 产生 的 问题 ， 例 如 : 

1) 车 提出 了 一 种 对 排序 函数 的 修改 方法 ， 我 们 是 否 应 该 开始 启用 它 ? 

2) 若 构想 出 一 个 新 的 概率 排序 函数 ， 它 是 否 比 向 量 模型 和 BM25 排序 得 更 好 ? 

3) 对 于 Web 查询 ， 如 商业 查询 、 产 品 查询 ， 还 是 地 理 查 询 ， 哪 种 给 定 的 排序 修改 方法 
最 有 效 ? 

缺乏 适当 的 评价 就 无 法 客观 地 回答 这 些 问 题 ， 也 无 法 对 排序 函数 进行 良好 的 调整 。 

检索 评价 针对 信息 检索 系统 响应 用 户 查询 的 返回 结果 ， 系 统 化 地 给 出 了 一 个 量 

化 的 指标 。 这 个 指标 应 该 和 检索 结果 与 用 户 的 相关 性 直接 联系 。 计 算 这 个 指标 的 通 

常 方 法 是 ， 对 于 给 定 的 一 组 查询 ， 比 较 由 系统 产生 的 结果 和 由 人 产生 的 结果 。 

注意 到 这 里 的 检索 评价 意味 着 评价 结果 的 质量 ， 而 不 是 系统 的 性 能 〈 即 它 能 多 快 地 处 理 
查询 )。 因 此 ， 我 们 避免 使 用 检索 性 能 评价 (retrieval performance evaluation) 这 样 的 术语 ， 
但 这 样 的 术语 却 经 常 在 专业 文献 中 使 用 ， 用 来 表示 上 面 定 义 的 检索 评价 。 

我 们 的 定义 包含 了 问题 的 一 方面 ， 即 结果 质量 的 评价 ， 但 不 包含 那些 会 影响 用 户 判 断 方 
面 的 因素 。 举 个 例子 ， 在 用 户 体验 方面 的 一 个 主要 影响 因素 是 用 户 界 面 (User Interface, 
UDID ， 但 是 我 们 上 面 的 定义 并 不 包括 界面 的 特性 ， 例 如 布局 、 颜 色 、 图 标 和 时 延 。 它 也 不 考 
虑 结果 的 相关 性 会 受到 诸多 因素 的 影响 ， 例 如 查询 提交 时 的 背景 情况 、 用 户 的 偏好 、 提 交 的 
时 间 等 。 而 且 ， 查 询 可 能 是 一 项 复杂 的 检索 任务 中 的 一 部 分 ， 其 目的 只 是 满足 一 个 有 意义 的 
信息 需求 。 这 些 通常 更 难以 有 效 地 度量 和 评价 ， 需 要 耗费 大 量 的 时 间 来 营造 适当 的 评价 
环境 。 

尽管 有 这 些 缺 点 ， 但 对 于 查询 结果 赋予 一 个 数值 指标 的 评价 过 程 还 是 被 广泛 地 采用 了 。 
可 能 是 因为 这 更 简单 ， 并 能 以 相对 低廉 的 代价 重复 多 次 。 可 重复 性 是 其 主要 的 优点 ， 因 为 这 
允许 在 相对 短 时 间 内 研究 更 大 批 的 查询 和 它们 的 结果 。 这 是 至 关 重 要 的 ， 因 为 这 使 我 们 能 够 
通过 仔细 检查 指标 是 如 何 因 排序 函数 的 改变 而 受 影响 的 ， 从 而 深入 了 解 在 排序 隐 数 中 哪些 因 
索 是 不 起 作用 的 。 

在 本 章 中 ， 我 们 将 讨论 信息 检索 系统 的 检索 评价 。 由 于 评价 通常 基于 一 个 测试 参考 集 ， 
所 以 在 本 章 中 我 们 会 讨论 不 同 的 文档 集 。 我 们 的 讨论 首先 是 涵盖 了 Cyril Cleverdon[ 395， 
399, 398] 的 原创 性 工作 ， 其 到 达 了 Cranfield 范式 的 顶峰 一 一 信息 检索 评价 指标 发 展 的 基 
础 。Cranfield 框架 之 外 的 评测 方法 将 在 4.5.5 节 讨 论 。 
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4.2 Cranfield 范式 


信息 检索 系统 的 系统 化 评价 是 20 世纪 50 年 代 由 Cyril Cleverdon 开创 的 早期 实验 结果 所 
建立 的 ， 这 在 所 谓 的 Cranfield 实验 中 达到 了 顶峰 。 这 些 实验 提供 了 对 信息 检索 系统 进行 评 
价 的 基础 ， 即 我 们 现在 要 讨论 的 内 容 。 


4.2.1 历史 简 述 


回 到 1952 年 ， 英 国 Cranfield Aeronautics 学 院 的 图 书馆 员 Cyril Cleverdon, 注意 到 一 
个 由 美国 政府 图 书馆 员 Mortimer Taube 提出 的 新 的 索引 系统 ， 称 为 “Uniterm 系统 ”(Uni- 
term System), Taube 仔细 地 分 析 了 近 40 000 个 主题 词 (subject headings)， 发 现 它们 仅 由 
7000 个 不 同 的 词组 成 。 然 后 ， 他 提出 对 文档 的 索引 应 该 仅 基于 不 同 词 的 集合 ， 这 就 是 名 字 
Uniterm 的 由 来 。Cleverdon 为 此 所 吸引 ， 便 和 同事 Bob Thorne 做 了 一 个 小 实验 。 他 用 
Uniterm 手工 地 对 200 篇 文档 进行 索引 ， 并 要 求 Thorne 运行 一 些 查询 。 这 个 简单 的 实验 使 
Cleverdon 走 上 了 依靠 实验 来 评价 索引 系统 的 终生 道路 ， 其 最 终 的 项 峰 是 精度 和 召回 率 等 现 
代 化 指标 ， 如 今 这 些 指标 在 信息 检索 中 是 非常 流行 的 。 

新 的 Uniterm 系统 让 那些 拥护 更 复杂 的 索引 系统 的 人 感到 困扰 ， 比 方 说 主题 词 ， 它 在 
当时 被 大 部 分 卡片 目录 系统 所 使 用 。Uniterm 系统 似乎 过 分 简单 了 ， 并 缺少 主题 词 的 语义 
性 。 虽 然 争论 很 激烈 ， 但 是 没有 可 靠 且 可 用 的 数据 来 对 这 两 个 索引 系统 进行 直接 的 比较 。 对 
Cleverdon 来 说 ， 这 两 种 索引 系统 显然 需要 一 种 独立 的 评价 方法 ， 他 将 自己 投入 到 这 项 任务 
中 去 。 

Cleverdon 获得 了 美国 国家 科学 基金 会 (National Science Foundation, NSF) 的 资助 ， 
对 4 个 不 同 的 索引 系统 进行 比较 ， 其 中 包括 Uniterm 系统 。 这 个 项 目 ， 被 称 为 Cranfield-1， 
需要 用 各 种 索引 方法 对 18 000 篇 关于 宇航 工程 的 论文 手工 建立 索引 ， 并 对 1200 篇 搜索 问题 
的 结果 进行 评价 。 每 个 问题 来 自 一 篇 单一 的 文档 ， 当 那 篇 文档 被 待 测试 的 索引 系统 正确 编目 
时 ， 搜 索 被 认为 是 成 功 的 。 结 果 显 示 ，4 个 索引 系统 对 于 结果 的 精度 而 言 基本 上 是 相同 的 。 

除了 结论 本 身 外 ， 这 些 大 量 的 、 辛 苗 的 实验 也 提供 了 有 趣 的 见解 。 例 如 ， 如 果 不 附 上 精 
度 〈 即 检 出 相关 文档 的 比例 ) 的 信息 ， 召 回 率 〈 即 相关 文档 被 检 出 的 比例 ) 的 价值 就 不 大 
了 。 验 证 实验 表明 ， 在 召回 率 和 精度 之 间 有 反比 的 关系 。 这 清晰 地 说 明了 ， 在 任何 某 个 具体 
的 索引 系统 中 ， 不 可 能 同时 提升 精度 和 召回 率 。 

下 一 步 是 要 设计 一 组 实验 ， 对 每 一 个 索引 系统 单独 进行 更 为 彻底 的 评价 。 对 每 个 搜索 问 
题 ， 检 查 数 据 集 中 所 有 的 文档 ， 并 判断 它们 和 这 个 问题 的 相关 性 。 这 显然 意味 着 用 于 评价 的 数 
据 集 的 规模 要 小 ， 否 则 评价 过 程 的 代价 将 变 得 非常 高 。 实 验 设 定 用 了 1400 篇 文档 和 279 个 问 
题 。6 名 学 生花 了 3 个 月 的 时 间 上 比较 每 篇 文档 和 每 个 问题 ， 并 决定 文档 是 否 和 这 个 问题 相关 。 
其 结果 是 一 个 由 文档 、 查 询 和 对 每 个 “文档 -查询 ”对 的 相关 性 评价 组 成 的 参考 测试 集 ， 称 为 
Cranfield-2 数据 集 。 实 验 的 主要 结果 是 ， 精 度 -召回 率 曲线 呈现 出 大 家 所 熟知 的 双 曲 线形 状 。 

在 Cranfield-2 实验 中 也 观察 到 ， 在 实际 情况 中 ， 大 多 数 搜索 不 需要 高 的 召回 率 。 相 反 ， 
大 多 数 用 户 只 是 要 求 一 些 相关 的 答案 一 一 这 个 结论 在 Web 中 更 有 效 。 

Cranfield-2 实验 建立 了 信息 检索 中 的 现代 实验 法 的 基础 。 通 过 和 专家 产生 的 相关 性 评价 
进行 比较 ， 相 同 的 文档 和 查询 被 用 来 评价 不 同 的 排序 系统 。 而 且 ， 精 度 和 召回 率 如 今 是 评价 
排序 质量 的 必 选 指标 。 在 产生 了 相关 性 评价 之 后 ， 这 种 设 定 的 统一 性 使 得 可 以 进行 快速 的 评 
价 ， 这 使 得 该 方法 具有 巨大 的 实用 价值 。 
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133 Cranfield-2 范式 的 主要 缺点 是 其 潜在 的 简化 假设 。 用 户 的 信息 需求 被 假设 是 静态 的 ， 文 
档 的 相关 性 被 假设 是 和 其 他 文档 的 相关 性 无 关 的 。 而 且 ， 它 假定 一 组 单一 的 相关 性 评价 结果 
反映 了 用 户 群 的 观点 ， 同 时 假定 对 任何 给 定 的 查询 所 有 的 相关 文档 是 已 知 的 。 通 过 查看 如 今 
的 Web 用户， 我 们 观察 到 所 有 这 些 假设 都 不 成 立 。 尽 管 有 这 些 局 限 ， 由 Cranfield-2 实验 建 
立 的 评测 过 程 如 今 仍 然 被 广泛 采用 ， 这 主要 是 因为 它 对 不 同 信息 检索 系统 的 结果 提供 了 客 
观 、 易 于 解释 且 可 比较 的 指标 。 


4.2.2 参考 集 


参考 集 允 许 对 不 同 排序 函数 产生 的 结果 进行 直接 的 比较 。 它 们 基于 Cranfield 实验 定义 
如 下 : 
参考 集 : 参考 集 是 由 一 组 预先 选择 的 文档 集 刀 、 一 组 用 于 测试 的 信息 需求 描述 了 
和 一 组 与 每 个 二 元 组 [i,，d;]」 对 应 的 二 元 相关 性 评价 组 成 的 ， 其 中 in EIT 且 d;ED。 
如 果 文 档 dj; 与 信息 需求 in 是 不 相关 的 ， 那 么 相关 性 评价 值 为 0; wR; 和 i 是 
相关 的 ， 其 值 为 1。 
相关 性 评价 是 由 专家 产生 的 ， 理 想 情况 下 应 该 为 每 一 个 信息 需求 -文档 二 元 组 提供 相关 
性 判断 。 显 然 ， 这 仅仅 对 于 小 的 文档 集 是 可 行 的 ， 正 如 Cranfield 实验 中 那样 。 并 且 需 要 注 
意 的 是 ， 相 关 性 评价 是 针对 信息 需求 描述 ， 而 不 是 针对 查询 。 这 是 因为 把 信息 需求 描述 翻译 
为 查询 也 被 认为 是 评价 过 程 的 一 部 分 ， 需 要 由 被 评价 的 检索 算法 完成 。 对 于 Web 而 言 显 然 
不 是 这 样 ， 用 户 需 要 直接 指定 查询 。 参 考 集 具 有 许多 重要 的 优点 ， 有 具体 如 下 所 示 : 
。 给 定 参 考 集 ， 信 息 检索 系统 的 评价 可 以 迅速 完成 ， 这 使 得 我 们 可 以 对 不 同系 统 、 不 
同 排序 函数 进行 比较 。 
。 出 于 验证 目的 ， 系 统 可 以 在 评价 之 后 重新 进行 评价 ， 即 参考 集 提供 了 实验 的 可 重 
复 性 。 
可 以 针对 特殊 种 类 的 信息 需求 建立 不 同 的 参考 集 ， 这 使 我 们 能 够 对 排序 函数 的 性 质 
有 更 加 深入 的 理解 。 
由 于 这 些 优点 ， 参 考 集 继 续 广 泛 用 于 评价 信息 检索 系统 ， 更 详细 的 内 容 见 4. 4 节 。 


4.3 检索 指标 


本 节 将 回顾 评价 信息 检索 系统 的 检索 质量 
〈 即 结果 质量 ) 的 不 同 指标 。 其 中 ， 最 广泛 使 
134] ”用 的 是 召回 率 和 精度 。 


4.3.1 精度 和 召回 率 


考察 〈 一 个 测试 参考 集 的 ) 信息 需求 1 和 
相关 文档 集合 RR。 设 |R| 是 这 个 集合 内 文档 的 
数目 。 假 设 某 个 给 定 的 〈 待 评测 的 ) 检索 算法 
处 理 了 这 个 信息 需求 1， 生成 了 一 组 答案 A。 
设 |A| 是 这 个 集合 中 文档 的 数目 。 而 且 ， 设 
|RNA| 是 集合 R 和 A 交集 中 的 文档 的 数目 ， 
如 图 4-1 所 示 。 那 么 ， 精 度 和 召回 率 的 指标 定 
义 如 下 : 图 4-1 对 于 给 定 信 息 需求 了 的 精度 和 召回 率 


RNA: 答案 集中 的 相关 文档 
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。 精度 (Precision) 是 检 出 文档 (BAA 中 相关 文档 的 比例 ， 即 
—,— RNAI : 
精度 = p [AT (4-1) 
。 BA (Recall) 是 相关 文档 (集合 R) 被 检 出 的 比例 ， 即 


ame 一 + 一 相册 (4-2) 


上 面 定义 的 精度 和 召回 率 假设 答案 集 A 中 所 有 的 文档 已 经 被 检查 过 (或 者 见 过 )。 然 而 ， 用 
户 通 常 不 会 马上 见 到 答案 集 A 中 所 有 的 文档 。 相 反 ，A 中 的 文档 首先 根据 分 数 排序 。 然 后 ， 
用 户 从 第 一 篇 文档 开始 检查 这 个 排序 队列 。 在 这 种 情况 下 ， 精 度 和 召回 率 的 值 会 随 着 用 户 对 
答案 集 A 的 检查 而 变化 。 因 此 ， 需 要 按 如 下 方法 绘制 精度 -召回 率 曲线 。 

假设 一 个 参考 集 和 一 组 测试 查询 ， 并 假设 对 于 给 定 的 查询 qg 具有 相关 文档 集合 R, B 
集合 是 一 组 专家 所 确定 的 。 不 失 一 般 性 ， 再 假设 集合 R 由 如 下 的 文档 组 成 ，; 

Ry = {dy sds do ,dzs ,ds da »dse dr ,ds dizs } 

这 样 ， 根 据 专家 评估 ， 有 10 篇 文档 和 查询 a 相关 。 

现在 考虑 一 个 刚刚 设计 的 新 检索 系统 。 假 设 这 个 算法 对 于 查询 9 ， 在 答案 集中 返回 了 
一 列 排 过 序 的 文档 ， 如 下 所 示 。 

对 应 查询 dl 的 排序 : 





l. diz ° 6. d; © 11. das 
2. des 7. dsi1 12. dig 
3. dss ° 8. diz 13. dzso 
4. dg 9. disz 14. dis 
5. ds 10. dz5 ° 15. d; ° 


和 查询 g 相关 的 文档 ， 即 那些 属于 集合 R 的 文档 ， 在 其 编号 后 面 加 注 了 一 个 小 圆 点 。 
如 果 我 们 从 第 一 篇 文档 开始 ， 检 查 这 个 排序 ， 可 以 观察 到 如 下 的 情况 。 第 一 ， 排 在 第 一 位 的 
文档 ds 是 相关 的 ， 而 且 这 个 文档 占 到 了 R 中 所 有 相关 文档 的 10%。 这 样 ， 我 们 说 在 10% 
的 召回 率 上 有 100% 的 精度 。 第 二 ,文档 dss 排 在 第 三 位 ， 是 下 一 篇 相关 文档 。 此 时 ， 我 们 
说 在 20% 的 召回 率 (10 篇 相关 文档 中 找 出 了 2 篇 ) 上 有 66. 6% 的 精度 (3 篇 中 2 篇 是 相关 
的 )。 第 三 ， 如 果 我 们 接着 检查 生成 的 排序 队列 ， 就 能 绘制 一 条 精度 -召回 率 的 曲线 ， 如 图 4-2 
所 示 。 召 回 率 高 于 50% 后 ， 精 度 下 降 到 了 接近 于 0， 因 为 不 是 所 有 的 相关 文档 都 被 检 出 。 这 
个 精度 -召回 率 的 曲线 通常 基于 11 (而 不 是 10) 个 标准 召回 率 水 平 ， 分别 是 0%、10%、 
20% 、…、100%% 。 对 于 召回 率 水 平 为 0% 的 情况 ， 其 精度 是 通过 我 们 接 下 来 讨论 的 插值 方 
式 获 得 的 。 














0 10 20 30 40 50 60 70 80 90 100 
召回 率 








4-2 对 于 查询 q 在 11 个 标准 召回 率 水 平 上 的 精度 ， 分 别 用 图 和 表 显 示 
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现在 考虑 第 二 个 不 同 的 查询 q ， 根 据 专家 判断 ， 其 相关 文档 集合 如 下 : 
R, = {ds sdse ding} 
而 且 ， 假 设 使 用 和 我 们 考察 q 时 相同 的 检索 算法 来 处 理 查询 9 ， 并 返回 如 下 所 示 的 排 过 序 
的 结果 队列 。 
对 应 查询 q 的 排序 : 


Ída 6. dais 11. diss 
2. der ae 12. dns 
3. dss * 8. diz * 13. devo 
4. dzz 9. di 14. ds 

5. diz 10. diso 15. d 。 


与 前 面 的 情况 类 似 ， 其 中 的 圆 点 标记 了 相关 文档 。 在 这 个 例子 中 ， 排 序列 表 中 第 一 个 相关 文档 
是 dss ， 其 召回 率 水 平 是 33. 3% (精度 也 是 33. 3%) ， 因 为 ， 此 时 所 有 相关 文档 的 1/3 已 经 被 观 
察 到 了 。 第 二 个 相关 文档 是 ds ， 其 召回 率 水 平 是 66. 6% (其 精度 为 25%)。 第 三 个 相关 文档 是 
ds， 召 回 率 是 100% (其 精度 是 20%)。 在 11 个 标准 召回 率 水 平 上 的 精度 按 如 下 方法 进行 插值 。 
B rj» GE{0, 1, 2, =, 10), BB j 个 标准 召回 率 水 平 I r 表示 召回 率 水 平 

50%). BA, 
Plr;) = a (4-3) 


这 说 明了 在 第 7 个 标准 召回 率 水 平 的 揪 值 精度 是 所 有 高 于 的 召回 率 水 平 所 对 应 的 精度 当 


中 的 最 大 值 。 


在 我 们 上 一 个 例子 中 ， 这 个 插值 规则 产生 的 精度 和 召回 率 数值 在 图 4-3 中 展示 。 在 召回 
IKE 0%, 10%, 20% Al 30% 上， 插值 后 的 精度 等 于 33.3%， 对 应 于 召回 率 水 平一 
33. 3% 时 的 精度 ， 这 一 召回 率 水 平 上 的 精度 即 是 在 其 之 上 的 召回 率 水 平 所 对 应 精度 的 最 大 
fA. TER BRAK 40%, 50% 60% 上 ， 插 值 后 的 精度 是 25%， 对 应 的 召回 率 水 平 是 r= 
66.6% ， 这 一 召回 率 水 平 上 的 精度 即 是 在 其 之 上 的 召回 率 水 平 所 对 应 精度 的 最 大 值 。 在 召回 
IKE 70%. 80%, 90% #1 100% k, AA 20%, MMF A BRK r=100%, x 
一 召回 率 水 平 高 于 所 有 已 知 精度 对 应 的 召回 率 。 
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召回 率 














图 4-3 对 于 查询 gs 在 11 个 标准 召回 率 水 平 上 的 插值 精度 ,分别 用 图 和 表 显 示 


在 上 述 的 例子 中 ， 精 度 和 召回 率 数值 是 针对 单一 查询 计算 的 。 然 而 ， 检 索 算法 通常 是 通 
过 运行 多 个 不 同 的 测试 查询 来 进行 评价 的 。 在 这 种 情况 下 ， 对 于 每 个 测试 查询 ， 都 要 生成 一 
个 不 同 的 精度 -召回 率 曲线 。 为 了 评价 一 个 算法 在 一 组 N, 个 测试 查询 上 的 检索 质量 ,我们 
采用 如 下 公式 计算 每 个 召回 率 水 平 上 的 平均 精度 。 


Ng 


Por) = J) Pe (4-4) 


i=l q 
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其 中 P(r;〉 是 在 召回 率 水 平 x; 的 平均 精度 ，P;(r;〉 是 第 i 个 查询 在 召回 率 水 平 r; 上 的 精 
度 。 举 例 来 说 ， 图 4-4 显示 了 在 查询 q Ae 上 的 平均 精度 和 召回 率 。 
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召回 率 








图 4-4 11 个 标准 召回 率 水 平 上 的 插值 精度 对 查询 9 和 gq: 进行 平均 ， 分 别 用 图 和 表 显 示 


在 一 组 测试 查询 上 计算 的 平均 精度 -召回 率 数 值 通常 用 于 比较 不 同 算法 之 间 的 检索 质量 ， 
例如 可 以 比较 新 提出 的 检索 算法 和 经 典 向 量 空间 模型 。 图 4-5 显示 了 两 个 不 同 的 检索 算法 的 
平均 精度 -召回 率 数值 。 在 这 个 例子 中 ， 第 一 个 算法 在 低 召 回 率 水 平 上 有 更 高 的 精度 ， 而 第 
二 个 算法 在 高 召回 率 水 平 上 更 为 优越 。 因 此 ， 第 一 个 算法 将 更 适合 于 Web， 而 另 一 个 在 法 
律 和 健康 领域 中 应 用 得 更 好 ， 因 为 通常 需要 较 高 召回 率 来 解决 法 律 和 医疗 案例 。 关 于 使 用 平 
均 精 度 -召回 率 曲线 来 比较 不 同 排序 函数 的 真实 例子 ， 读 者 可 参考 附录 A。 此 外 ， 我 们 应 该 
注意 ， 在 某 些 情况 下 ， 用 于 比较 不 同 排序 的 通用 方法 是 使 用 曲线 下 面积 (Area Under the 
Curve，AUC)， 曲 线 下 面积 的 值 越 大 表明 质量 越 好 。 

平均 精度 -召回 率 数值 如 今 成 为 信息 
检索 系统 的 标准 评价 指标 ， 在 信息 检索 
文献 中 被 广泛 采用 。 它 们 是 实际 可 用 的 ， 
因为 它们 使 得 我 们 能 够 量化 地 评价 OO 
索 ) 结果 的 质量 和 检 出 相关 文档 所 占 的 
比例 。 而 且 ， 它 们 的 表示 简单 直接 ， 并 Oi OR aT A Re I 

0 10 20 30 40 50 60 70 80 90 100 
且 能 结合 在 一 条 单一 的 曲线 中 。 然 而 ， 召回 率 
精度 -召回 率 数 值 也 有 缺点 ， 有 些 文献 对 
其 被 过 多 使 用 的 情况 也 提出 了 批评 。 我 
们 稍 后 再 来 讨论 该 问题 。 我 们 首先 讨论 用 单一 数值 来 概括 精度 -召回 率 数值 的 技术 。 

精度 和 召回 率 的 合理 性 

精度 和 召回 率 已 经 被 广泛 地 用 来 评价 检索 算法 的 质量 。 然 而 ， 有 些 更 为 细致 的 工作 揭示 
了 这 两 个 指标 所 存在 的 问题 [931，1326，1552]j。 第 一 ， 对 查询 最 大 召回 率 的 适当 估计 需要 
数据 集中 所 有 文档 的 详细 知识 。 对 于 大 规模 文档 集 ， 我 们 无 法 获得 这 样 的 知识 ， 也 就 意味 着 
召回 率 无 法 准确 估计 。 第 二 ， 精 度 和 召回 率 是 相关 联 的 指标 ， 它 们 描述 了 检 出 文档 集 不 同方 
面 的 性 质 。 在 许多 情况 下 ， 使 用 结合 了 召回 率 和 精度 的 单一 指标 可 能 更 合适 。 第 三 ， 精 度 和 
召回 率 能 够 度量 在 批 处 理 状态 下 对 一 组 查询 进行 处 理 的 效果 。 然 而 ， 对 于 现代 的 系统 来 说 ， 
交互 性 (而 不 是 批 处 理 ) 是 检索 过 程 的 关键 特性 。 因 此 ， 对 检索 过 程 加 以 量化 的 信息 性 
(informativeness) 测度 现在 可 能 是 更 合适 的 。 第 四 ， 当 检 出 文档 满足 某 个 线性 顺序 时 ， 精 
度 和 召回 率 是 容易 定义 的 。 然 而 ， 对 于 只 需要 弱 偏 序 关 系 的 系统 来 说 ， 精 度 和 召回 率 可 能 是 
不 适合 的 。 

尽管 有 这 些 缺 点 ， 但 精度 和 召回 率 仍然 被 广泛 采用 ， 因 为 在 给 定 一 个 参考 集 的 条 件 下 ， 





Fe ter 
|- 全- 排序 2 




















图 4-5 ”两 个 不 同 检索 算法 的 平均 精度 -召回 率 数 值 
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它们 易于 产生 且 人 允许 直接 比较 不 同 的 排序 策略 。 


4.3.2 单 值 总 结 : P@n, MAP, MRR, F 


平均 精度 -召回 率 数 值 可 以 用 于 在 一 组 测试 查询 上 比较 不 同 检索 算法 的 质量 。 然 而 ， 在 
有 些 情 况 下 ， 我 们 希望 针对 单个 查询 来 比较 检索 算法 的 质量 。 原因 有 两 方面 。 首先 ， 基 于 多 
个 查询 的 平均 精度 可 能 掩盖 了 正在 研究 的 检索 算法 的 异常 性 。 其 次 ， 当 比较 两 个 算法 时 ， 我 
们 可 能 想 要 研究 在 给 定 样 例 查询 集 的 每 个 查询 上 ， 哪 个 算法 更 好 〈 注 意 单一 查询 的 情况 很 容 
易 被 平均 精度 的 计算 结果 所 掩盖 ) 。 在 这 种 情况 下 ， 可 以 采用 单一 〈 针 对 每 个 查询 ) 的 精度 
值 。 通 常 ， 这 个 单一 的 总 结 性 数值 是 在 一 个 给 定 召 回 率 水 平 上 的 精度 。 举 例 来 说 ， 当 我 们 观 
察 到 第 一 篇 相关 文档 时 ， 我 们 就 能 评测 此 时 的 精度 并 把 这 个 精度 作为 总 结 性 的 单一 数值 。 当 
然 ， 这 并 不 是 一 个 很 好 的 方法 。 我 们 下 面 将 讨论 一 些 更 为 有 趣 的 策略 。 

1. 前 n 平均 精度 : P@n 

在 Web 搜索 引擎 下 ， 我 们 常常 会 计算 获取 5 篇 或 者 10 篇 文档 时 的 平均 精度 (不 管 它们 
是 相关 的 还 是 不 相关 的 )。n 的 典型 值 是 P@5(precision at 5), P@10(precision at 10) 和 
P@20(precision at 20)。 它 们 近似 地 反映 了 用 户 对 检索 结果 的 印象 ， 并 且 是 建立 在 人 们 很 少 
翻阅 Web 检索 结果 第 二 页 的 这 一 事实 基础 之 上 ( 见 7.2.1 节 )。 相 关 文 档 越 集中 于 排序 的 顶 
部 ， 用 户 的 印象 就 越 正 面 。 

正如 Cleverdon 在 Cranfield-2 实验 中 所 说 的 那样 ( 见 4. 2 节 )， 大 部 分 搜索 不 需要 高 的 
召回 率 。 相 反 地 ， 绝 大 部 分 的 用 户 只 需要 顶部 的 几 篇 相关 文档 。P@5 和 PG@10 提供 了 可 靠 
的 指标 来 评价 Web 搜索 引擎 的 用 户 是 否 在 排序 的 顶部 得 到 了 相关 文档 。 举 例 来 说 ， 对 于 我 
们 已 经 使 用 的 样 例 查 询 g, ， 我 们 有 P@5=40% M P@10 一 40%。 而 且 ， 给 定 两 个 Web 排序 
FAR AR: ， 我 们 可 以 对 它们 分 别 计算 P@5 和 P@10 的 数值 ， 我 们 还 可 以 在 100 个 样 例 
查询 上 做 平均 并 以 此 获取 初步 的 评价 ， 了 解 哪 个 算法 在 用 户 眼 中 更 好 。 

2. 平均 精度 均值 

平均 精度 均值 (Mean Average Precision, MAP) 的 主要 想法 是 产生 一 个 关于 排序 的 总 
结 性 的 单一 数值 ， 而 这 是 通过 对 每 个 新 观察 到 的 相关 文档 计算 精度 并 做 平均 获得 的 。 

EM RR 为 查询 q; 对 应 的 相关 文档 集合 ， 并 且 |R; | 表示 其 大 小 ( 即 查 询 q 相关 文档 
HRE) ARE] RHR 中 第 & 篇 文档 。 那 么 ，P(Ri[k]) 是 在 查询 q; 的 排序 队列 中 观察 
到 文档 RUA] 的 概率 。 如 果 这 篇 文档 未 能 检 出 ， 那 么 P(R;[&]) 被 当做 0( 这 在 实际 的 搜索 
中 经 常 出 现 ， 虽 然 它 是 未 定义 的 ， 但 是 我 们 能 假设 其 值 足够 小 ， 并 近似 为 0) 。 

MAP:;， 查 询 q 的 平均 精度 ， 定 义 为 

IR; | 


_ 1 . 
MAP, = TRT > P(R [D (4-5) 
MAP， 在 一 组 查询 上 的 平均 精度 均值 ， 定 义 为 
MA = 2 MAP; (4-6) 


其 中 N, 是 查询 的 总 数目 。 举 例 来 说 ， 以 图 4-2 中 的 查询 gq 作为 例子 。 在 每 个 新 的 相关 文档 
被 观察 到 后 的 精度 值 分 别 是 1、0. 66、0.5、0.4 和 0.33。 因 此 ， 查 询 gi 的 平均 精度 是 
map — 1 十 0.66 十 0.5 十 0.4 十 0.33 十 0 十 0 十 0 十 0 十 0 
! 10 





= 0. 28 
注意 不 是 所 有 相关 文档 都 出 现在 排序 的 队列 中 ， 因 此 不 在 其 中 的 文档 的 精度 设 为 0。 对 
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于 图 4-3 中 的 查询 g;， 在 观察 到 每 个 新 的 相关 文档 后 的 精度 分 别 是 0. 33、0. 25 和 0. 20。 因 
此 ， 查 询 9: 的 平均 精度 是 
0. 33 +0. 25 +0. 20 








MAP, = 3 = 0. 26 
对 于 由 这 两 个 查询 组 成 的 集合 ，MAP 值 是 
Map = MAP MAP: = 0.27 
3. R 精度 


这 里 的 想法 是 在 排序 的 第 R 个 位 置 计算 精度 ， 从 而 为 该 排序 生成 一 个 总 结 性 的 单一 值 ， 
其 中 R 是 当前 查询 的 相关 文档 的 总 数 〈 即 集合 R 中 文档 的 个 数 ) 。 举 例 来 说 ， 考 察 图 4-2 和 
图 4-3 中 的 样 例 查询 9 和 gs 。 对 于 查询 g; ， 相 关 文 档 的 总 数 是 10( 即 Ri 的 大 小 )， 在 排序 的 
前 10 篇 文档 中 有 4 篇 是 相关 文档 。 因 此 ，g, 的 R 精度 值 (R-Precision) 是 0.4。 对 于 查询 
qz， 总 的 相关 文档 个 数 是 3( 即 R, 的 大 小 ) ， 在 排序 的 前 3 篇 文档 中 有 一 篇 相关 文档 。 这 样 ， 
qz 的 R 精度 值 是 0. 33。 

R 精度 指标 是 一 个 很 有 用 的 参数 ， 可 以 用 来 在 实验 中 观察 某 个 算法 对 于 单个 查询 的 效 
果 。 此 外 ， 人 们 也 可 以 在 所 有 的 查询 上 计算 平均 R 精度 值 。 然 而 ， 使 用 单一 数值 来 总 结 一 
个 检索 算法 在 多 个 查询 上 的 效果 可 能 是 相当 不 准确 的 。 

4. 精度 直方 图 

多 个 查询 的 R 精度 值 可 以 按 如 下 方式 来 比较 两 个 算法 的 检索 质量 。 设 RPAG) 和 RPC) 
是 检索 算法 Ra 和 Rs 对 第 i 个 查询 的 R 精度 值 。 可 以 按 如 下 的 方式 定义 它们 的 差 值 : 

RP xsi) = RPG) — RP (i) (4-7) 
RPas D 的 值 等 于 0， 表明 这 两 个 算法 对 于 第 i 个 查询 (就 R 精度 而 言 )》 有 等 同 的 检索 质 
E. RPasG@) 的 值 为 正 数 ， 表 明 算 法 Ra 的 检索 质量 更 好 ， 而 负数 则 表明 算法 Rs BH. 
图 4-6 显示 了 两 个 假设 的 检索 算法 在 10 个 样 例 查询 上 的 RPwas(i) 值 。 算法 A 在 8 个 查询 
上 更 好 ， 而 算法 B 在 另外 两 个 查询 上 更 好 (编号 4 和 5)。 这 种 柱状 图 称 为 精度 直方 图 〈pre- 
cision histogram) ， 使 我 们 可 以 通过 可 视 化 的 观察 ， 快 速 地 比较 两 个 算法 的 检索 质量 。 
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图 4-6 10 个 假设 查询 的 精度 直方 图 
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5. 平均 排序 倒数 

有 时 候 对 于 给 定 的 查询 或 者 任务 ， 我们 特别 关注 第 一 个 正确 的 管 案 。 对 于 问答 系统 
(Question-Answering, QA) 来 说 尤其 是 这 样 ， 因 为 其 目标 是 检索 出 正确 回答 问题 的 短文 本 
片段 ， 而 不 是 一 个 排序 的 答案 集 。 对 于 Web 查询 中 的 URL 查询 和 主页 查询 也 是 相同 的 情 
况 ， 用 户 指定 一 个 URL 或 者 一 个 指向 某 个 主页 的 引用 ， 并 特别 关注 第 一 个 正确 的 答案 。 在 
这 些 情形 中 ， 我 们 期 望 指标 能 够 倾向 于 那些 第 一 个 正确 答案 有 较 高 排名 的 结果 。 

EN RR: 是 相对 于 查询 gq; 的 排序 。 设 Sora Ri) REDER 中 第 一 个 正确 答案 位 置 
的 函数 。 给 定 一 个 排序 位 置 阅 值 S, Ri 的 排序 倒数 定义 为 





1 
{= CRE) Scorrect CR:) < Sh 


0 Scorrect (Ri) D Sy 
也 就 是 说 ， 如 果 第 一 个 正确 答案 出 现在 排序 中 S 之 后 的 位 置 ， 那 么 排序 倒数 是 零 。 对 于 由 
N, 个 查询 组 成 的 集合 Q 来 说 ， 平 均 排 序 倒数 (Mean Reciproach Rank, MRR) 是 所 有 排序 
倒数 的 均值 ， 即 
1 s 1 

MRR (Q) = N, ° >, Scorrect (Ri) 
MRR 是 倾向 于 那些 第 一 个 正确 的 结果 出 现在 排序 顶部 的 指标 。 它 总 是 介 于 0 一 1 之 间 ， 并且 
和 平均 精度 有 紧密 的 相关 性 ， 这 是 好 的 特性 。 同 时 MRR 也 表现 出 一 些 缺 点 。 比 如 它 只 考察 
第 一 个 正确 的 结果 ， 且 只 能 取 一 些 离散 值 ， 例 如 ，1、1/2、1/3 是 分 别 对 应 于 排序 位 置 1、 
2、3 的 值 。 尽 管 如 此 ，MRR 是 一 个 有 用 的 指标 ， 用 来 评测 那些 非常 注重 第 一 个 正确 答案 的 
情况 ， 例 如 QA 会 话 、URL 和 主页 查询 。 

6.E 值 

E (fi (E-Measure) 最 初 是 由 van Rijsbergen[1624] 提出 的 。 其 想法 是 结合 精度 和 召回 
率 ， 人 允许 用 户 指定 它们 是 否 对 召回 率 或 者 精度 更 为 关注 。E 值 按 如 下 方式 定义 


EG) = 1— tte (4-9) 
rG) | PG) 
其 中 rip) 是 在 排序 中 第 7 个 位 置 的 召回 率 ，PG) 是 在 排序 中 第 7 个 位 置 的 精度 ，0 委 ECG7) < 
1 是 排序 中 第 7 个 位 置 的 EE 值 ，5 宇 0 是 用 户 定义 的 参数 ， 反 映 了 精度 和 召回 率 的 相对 重要 性 。 
如 果 5=0, BA 





EG) = 1— P() 
这 表明 低 数 值 的 使 得 正 值 基本 上 是 精度 的 函数 。 
如 果 boo, BA 
limE(j) =1—r(j) 
STULL UIT ea Lae SLE CT) ant te Me Cee 表明 用 户 对 于 
HEERE, mob 的 值 大 于 1 表明 用 户 对 召回 率 更 感 兴趣 。 对 于 2 一 1, 值 变 成 了 下 值 或 
者 调和 平均 。 
7.F 值 : 调和 平均 
调和 平均 (Harmonic Mean) ， 在 信息 检索 的 背景 中 更 多 地 称 为 下 值 (F-Measure)， 它 
提供 了 另 一 种 把 精度 和 召回 率 结合 为 一 个 数值 的 方法 ， 大 家 可 能 对 此 感 兴趣 L1455]。 它 是 
按照 如 下 的 方式 计算 的 : 


(4-8) . 
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FUY = 一 (4-10) 
ra) PO 
Her) 是 在 排序 列表 第 ; 个 位 置 的 召回 率 ，P(;) 是 在 排序 中 第 7 个 位 置 的 精度 ， 开 (7) 
是 排序 中 第 7 个 位 置 的 调和 平均 。 注 意 到 ， 
Boy = 1 

如 果 在 计算 EG) 中 ,到 5 二 1。 也 就 是 说 ， 函 数 下 是 玉 值 的 补 值 。 当 没有 相关 文档 检 出 时 ， 
其 值 为 0; 当 所 有 排序 文档 都 是 相关 文档 时 ， 其 值 为 1。 而 且 , 仅 当 召回 率 和 精度 都 较 高 时 ， 
它 才 有 和 较 高 的 数值 。 也 就 是 说 ， 确 定 下 最 大 值 的 过 程 可 以 解释 为 在 精度 和 召回 率 之 间 找 到 
最 为 合适 的 平衡 。 

调和 平均 指标 也 常常 用 来 评价 文本 分 类 算法 。 在 用 于 这 一 目的 时 ， 它 称 为 已 值 ， 在 第 
8 章 中 讨论 。 

8. 摘要 统计 表 

单一 的 数值 也 可 以 存储 在 表 中 用 于 提供 统计 性 的 总 结 。 这 些 总 结 性 统计 表 可 以 包括 各 种 
内 容 : 在 任务 中 使 用 的 查询 的 个 数 ， 所 有 查询 检 出 的 文档 的 总 数 ， 所 有 查询 检 出 的 相关 文档 
的 总 数 ， 所 有 查询 由 专家 评判 的 相关 文档 的 总 数 。 


4. 3.3 面向 用 户 的 指标 


精度 和 召回 率 是 基于 以 下 的 假设 : 查询 的 相关 文档 集合 是 不 变 的 ， 与 用 户 无 关 。 然 而 ， 
不 同 的 用 户 可 能 对 哪些 文档 是 相关 的 ， 哪 些 文档 是 不 相关 的 ， 有 着 不 同 的 解释 。 为 了 处 理 这 
个 问题 ， 已 经 提出 了 诸如 覆盖 率 (coverage ratio), HMA (novelty ratio) 、 相 对 召回 率 
(relative recall), EMR (recall effort)[931] 等 面向 用 户 的 指标 值 。 

如 前 所 述 ， 假 设 有 一 个 参考 集 ， KORNA: 答案 集中 已 知 的 
一 个 样 例 信息 需求 和 一 个 待 评测 a aai 
的 检索 算法 。 对 于 TI， 设 R 是 相关 文 
档 的 集合 ，A 是 检 出 答案 的 集合 。 
lat, RK 为 数据 集中 用 户 已 知 的 
文档 集合 ，|K| 为 其 大 小 。 集 合 
KM RNA 是 集合 K、R 和 A 的 交集 ， 
是 由 用 户 已 知 的 、 相 关 的 和 检 出 的 
文档 组 成 的 。 MA, BA CRNA) 


K: 用 户 已 知 的 文档 


一 K 是 由 用 户 未 知 的 、 检 出 的 相关 ae eon A: 答案 集 
文档 组 成 的 。 图 4-7 说 明了 这 一 情 
况 。 覆盖 率 定义 为 已 知 且 相 关 的 文 CRN4)-K: 答案 集中 未 知 的 
档 在 答案 集中 所 占 的 比例 ， 也 就 是 相关 文档 
_|KQ RNA 4-7 ”对 于 给 定 的 样 例 信息 需求 的 覆盖 率 和 新 颖 率 
coverage = RSI 


(4-11) 
新 颖 率 定 义 为 用 户 未 知 的 相关 文档 在 答案 集中 所 二 的 比例 ， 也 就 是 


novelty = CR o PRT (4-12) 


高 覆盖 率 表 明 系 统 找到 了 用 户 期 望 看 到 的 大 部 分 相关 文档 。 高 新 颖 率 表明 系统 〈 向 用 户 ) 展 
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示 了 许多 之 前 未 知 的 新 的 相关 文档 。 

另外 ， 我 们 还 可 以 定义 了 两 个 指标 ， 相对 召回 率 和 召回 代价 。 相 对 召回 率 是 〈 由 系统 ) 
找到 的 相关 文档 数量 与 用 户 希望 找到 的 相关 文档 数量 的 比率 。 如 果 用 户 找 到 了 与 他 期 望 一 样 
多 的 文档 ， 他 就 停止 搜索 ， 则 相对 召回 率 等 于 1。 召 田代 价 是 用 户 希 望 找到 的 文档 数量 与 搜 
寻 相关 文档 的 过 程 中 检查 到 的 文档 数量 的 比率 。 


4.3.4 折扣 累积 增益 


精度 和 召回 率 尽管 被 广 为 使 用 ,但 是 它们 仅 允 许 二 元 的 相关 性 评价 ， 因 此 可 能 被 野 值 
〈 即 在 排序 靠 后 位 置 找到 的 相关 文档 ) 严重 影响 。 因 此 ， 它 们 可 能 会 无 法 区 分 能 在 排序 的 顶 
部 检 出 高 度 相 关 文 档 的 模型 与 仅 能 检索 出 轻 度 相 关 文 档 的 模型 之 间 的 区 别 。 这 样 的 局 限 性 可 
以 通过 采用 分 级 相关 性 评价 以 及 能 够 有 效 结 合 这 些 评 价 的 指标 来 克服 。 这 些 指标 包括 现在 我 
们 要 讨论 的 折扣 累积 增益 (Discounted Cumulated Gain，DCG)。 我 们 的 讨论 基于 Jarvelin 
和 Kekäläinen[828, 829] 的 工作 。 注 意 有 些 作 者 使 用 Cumulative 而 不 是 Cumulated， 但 是 
我 们 还 是 决定 采用 原来 的 名 称 。 
1. 基本 折扣 累积 增益 
当 检 查 查询 的 结果 时 ， 我 们 可 以 观察 到 两 个 重要 的 现象 : 
D 在 排序 的 顶部 我 们 更 希望 是 高 度 相 关 的 文档 ， 而 不 是 轻 度 相 关 文 档 ; 
2) 出 现在 排序 底部 的 相关 文档 的 价值 不 高 。 
-对 于 第 一 个 现象 ， 我 们 通过 采用 分 级 相关 评价 的 方式 ， 并 且 利 用 排序 中 的 相关 文档 计算 
累积 增益 〈cumulated gain) 来 提高 评价 质量 。 让 我 们 用 一 个 例子 来 说 明 。 
假设 一 组 测试 查询 集合 的 检索 结果 是 由 专家 评审 的 ， 并 且 被 分 为 0 一 3 级 ，3 表示 强 相 
RE, WO 表示 文档 是 不 相关 的 。 举 例 来 说 ， 对 于 在 4. 3.1 节 中 用 做 样 例 的 查询 g fe, 
假设 分 级 相关 度 分 数 是 如 下 所 示 的 结果 : 
天: = {[d; ,3], Ld; ,3j], Ld, ,3], Ldzs ,2] ,Ld 2], 
Ld ,2], [dss ,1],[Ld ,1],Ladss ,1] ,Ldizs ,1 |]} 
R: = {[d; 3], [dss 92] [diz 14} 
Bee, Nd 是 和 查询 gl 高 度 相 关 的 ， 文 档 dss 只 是 轻 度 相关 的 。 而 文档 d 对 于 查询 
qz 是 高 度 相 关 的 ， 文 档 ds 只 是 轻 度 相关 的 。 给 定 这 些 相 关 性 评价 结果 ， 排 序 算 法 的 结果 可 
以 按 如 下 方式 评价 。 对 于 由 该 算法 为 查询 g 生成 的 前 10 一 20 个 结果 中 的 每 一 个 ， 我 们 根据 
由 专家 所 做 的 评估 给 予 一 个 分 级 的 相关 性 分 数 。 这 个 相关 性 分 数 的 排序 列表 称 为 增益 向 量 
(gain vector) G。 举 例 来 说 ， 假 设 我 们 考察 由 查询 g 和 gs 生成 排序 的 前 15 篇 文档 ， 如 
4. 3. 1 节 所 示 。 给 定 如 上 的 分 级 相关 性 评价 ， 对 于 这 些 查询 的 增益 向 量 G! AG, 是 
G, = (1,0,1,0,0,3,0,0,0,2,0,0,0,0,3) 
G = (0,0,2,0,0,0,0,1,0,0,0,0,0,0,3) 
通过 把 排序 中 任何 一 点 的 分 级 相关 性 分 数 〈 即 增益 ) 累加 ， 我 们 即 获得 了 由 这 个 算法 产 
生 的 累积 增益 〈Cumnulated Gain, CG) 指标 。 举 例 来 说 ， 对 于 查询 g; ， 第 一 个 位 置 的 累积 
增益 值 是 1， 在 第 二 个 位 置 是 1 十 0， 在 第 三 个 位 置 是 1 十 0 十 1， 以 此 类 推 。 因 此 ，g: 和 as 的 
累积 增益 向 量 为 
OG = (1,1,2,2,2,5,5,3,95,7,7,7,7,7,10) 
OG: = (0,0,2,2,2,2,2,3,3,3,3,3,3,3,6) 
举例 来 说 ，CG, 在 位 置 8 的 累积 增益 值 是 5。 
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定义 ”给 定 测 试 查询 gj 的 增益 向 量 Ci， 它 对 应 的 累积 增益 函数 CG, 被 定义 为 
ogc = (St i=l (4-13) 
; Gi] +0G6,4i-1]) i>1 

HY CG, [i] 表示 查询 gj; 的 排序 中 第 i 个 位 置 的 累积 增益 。 

对 于 在 本 节 之 前 提 到 的 第 二 个 现象 ， 即 在 排序 底部 的 相关 文档 的 价值 不 高 ， 我 们 引入 一 
个 折扣 因子 以 减少 它 对 增益 的 影响 。 一 个 简单 的 增益 因子 是 排序 位 置 的 对 数 函 数 (log)。 如 
果 我 们 考察 以 2 为 底 的 对 数 ， 那 么 这 个 折扣 因数 在 位 置 2 是 log:2， 在 位 置 3 是 log*3， 在 位 
置 4 是 log:4， 以 此 类 推 。 通 过 在 第 ;位 对 于 增益 G Li] 除 以 对 应 的 折扣 因子 ， 可 以 得 到 折 
扣 累 积 增益 。 

定义 ”给 定 测试 查询 gj 的 增益 向 量 G;， 其 对 应 的 折扣 累积 增益 函数 DCG 可 定义 为 


G01] i=l 
vcra JE 4-14 
me {803 aer i> _ 
2 


其 中 DCG, li] 表示 查询 gj 的 排序 在 第 i 个 位 置 的 折扣 累积 增益 。 
对 于 样 例 查询 Ala, DCG 向 量 (SAR) 如 下 l 
DCG, = (1.0,1.0,1.6,1.6,1.6,2.8,2.8,2.8,2.8,3.4,3.4,3.4,3.4,3.4,4. 2) 
DCG, = (0.0,0. 0,1. 3,1.3,1.3,1.3,1.3,1.6,1.6,1.6,1.6,1.6,1.6,1. 6,2. 4) 

我 们 注意 到 折扣 累积 增益 值 不 太 受 排序 底部 的 相关 文档 的 影响 ， 这 正 是 引入 折扣 因子 所 
期 望 达到 的 效果 。 在 上 面 的 例子 中 ， 在 第 15 位 出 现 的 一 个 高 度 相关 的 文档 使 得 DCG, 相对 
FCG 的 升 辐 要 小 得 多 。 进 一 步 注 意 到 通过 在 对 数 函 数 采用 更 大 的 底数 ， 可 以 加 强 折扣 因 
子 的 效果 。 但 是 为 了 简单 起 见 ， 我 们 把 讨论 限制 在 以 2 为 底 的 对 数 函 数 中 。 

2. DCG 曲线 

为 了 在 一 组 测试 查询 上 产生 CG 和 DCG 曲线， 我 们 需要 在 所 有 查询 上 加 以 平均 ， 具 体 
如 下 所 示 。 

定义 ”给 定 一 个 由 N, 个 测试 查询 组 成 的 集合 ， 在 这 组 测试 查询 上 的 平均 CG [i] 和 
DCG [i] 因子 可 以 按 如 下 方式 计算 。 


CGlil= > CG, [a 


N (4-15) 
marae lS r, 
DCGLi]= N, Š DCG, [i] 
举例 来 说 ， 对 于 样 例 查询 q 和 q ， 这 些 平均 结果 EAE) 为 
GG =(0.5,0.5,2.0,2.0,2.0,3.5,3.5, 
(4-16) 
4.0,4.0,5.0,5.0,5.0,5. 0,5. 0,8. 0) 
DCG =(0.5,0.5,1.5,1.5,1.5,2.1,2.1, 
(4-17) 


2.2,2.2,2.5,2.5,2.5,2.5,2. 5,53. 3) 
在 已 经 计算 了 平均 CG 和 DCG 因子 之 后 ， 就 可 以 通过 把 排序 位 置 从 1 变动 到 一 个 预 设 的 阅 
值 来 绘制 平均 曲线 。 在 上 面 的 例子 中 ， 这 个 阅 值 设 为 15， 在 Web 中 其 值 通常 设 为 10。 

图 4-8 显示 了 由 式 (4-16) MR (4-17) 计算 的 CG 和 DCG 向 量 对 应 的 CG 和 DCG 曲线 。 
我 们 注意 到 CG 和 DCG 数值 在 开始 的 时 候 迅 速 增长 ， 然 后 变 得 平缓 。 而 且 ， 由 于 折扣 因子 
的 影响 ，DCG E CG 增长 得 慢 。 在 位 置 15， 我 们 观察 到 两 个 数值 的 突然 增长 ， 但 这 是 由 于 
在 查询 a 和 9: 的 排序 的 底部 都 出 现 了 一 个 高 度 相关 的 文档 。 当 我 们 在 大 量 的 查询 上 对 CG 
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和 DCG 分 数 进行 平均 时 ， 这 个 现象 应 当 就 会 消失 。 而 且 ， 当 这 些 平均 值 是 在 大 规模 的 查询 
上 计算 时 ， 其 曲线 会 更 接近 抛物 线 的 形状 在 水 平 轴 附近 )， 开 始 增 长 迅速 ， 而 后 变 得 平缓 。 


9 





= [=e AVG (CO) 
— |= AVG (DCG) 








0 一 一 一 一 一 


1 2244 & 9 So 0 Th 12-19 14 15 
图 4-8 ”对 应 于 CG 和 DCG 向 量 的 CG 和 DCG 曲线 ， 通过 式 (4-16) 和 式 (4-17) 计算 

3. 理想 的 CG 和 DCG 指标 

精度 和 召回 率 数值 是 相对 于 相关 文档 集 计 算 的 ， 它 们 能 直接 用 于 比较 不 同 的 算法 。 而 前 面 
定义 的 CG 和 DCG 数值 不 是 相对 于 任何 基准 计算 的 ， 这 意味 着 人 们 可 能 会 误 以 为 能 够 用 它们 来 
直接 比较 不 同 的 检索 算法 。 解 决 这 个 问题 的 一 种 方法 是 计算 归 一 化 的 CG 和 DOG 指标 ， 这 需要 定 
义 用 于 归 一 化 的 基准 。 这 个 基准 就 是 我 们 接 下 来 要 讨论 的 理想 的 CG 和 DOG 指标 。 

定义 ”对 于 给 定 的 测试 查询 g9， 假 设 由 专家 生成 的 相关 文档 集 包 含 n 篇 相关 度 为 3 分 的 文 
H, m 篇 相关 度 为 2 分 的 文档 ，nl 篇 相关 度 为 1 分 的 文档 ，no 篇 相关 度 0 分 的 文档 〈 即 判断 
为 不 相关 )。 理 想 的 增益 向 量 IC 是 通过 对 所 有 相关 分 数 按照 降序 排列 生成 的 ， 如 下 所 示 : 

IG 一 (3 3 2 2 1 1,0,… :0) 

也 就 是 说 ，IG 向 量 是 由 ns MEA 3, n 个 值 为 2，ma MEAL, AA no 个 值 为 0 的 数值 
组 成 。 

举例 来 说 ， 对 于 样 例 查询 g 和 gs 而 言 ， 我 们 有 

IG = (3,3,3,2,2,2,1,1,1,1,0,0,0,0,0) 
IG, = (3,2,1,0,0,0,0,0,0,0,0,0,0,0,0) 
给 定 IG 向 量 ， 理 想 的 CGCICG) 和 理想 的 DCGCIDCG) 向量 可 以 类 似 于 CG 和 DCG 进行 
计算 。 举 例 来 说 ， 对 于 样 例 查询 q Mg, ME CG 向 量 是 如 下 的 形式 
ICG, = (3,6,9,11,13,15,16,17,18,19,19,19,19,19,19) 
ICG: = (3,5,6,6,6,6,6,6,6,6,6,6,6,6,6) 

理想 DCG 向 量 是 如 下 的 形式 
IDCG, = (3.0,6.0,7.9,8.9,9.8,10.5,10.9,11.2,11.5,11.8,11.8,11.8,11.8,11.8,11. 8) 
IDCG, = (3. 0,5. 0,5. 6,5. 645. 655. 655. 655. 655. 655. 655. 655. 6,5. 655. 6,5. 6) 


进一步 地 ， 平 均 ICC 值 和 平均 IFPDCCG 值 可 以 按 如 下 方式 计算 。 


N 
oe 1 < i 
ICG[i]= N, 24 ICG, [i] 
N (4-18) 
IDCGLi]= 5 >) IDCG, Li] 
q j=l 


举例 来 说 ， 对 于 样 例 查询 a 和 gq: ，ICG 和 IDCG 向 量 是 如 下 的 形式 
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ICG = (3.0,5.5,7.5,8.5,9.5,10.5,11.0,11.5,12.0,12.5,12.5,12.5,12.5,12. 5,12. 5) 

IDCG= (3.0,5.5,6.8,7.3,7.7,8.1,8.3,8.4,8.6,8.7,8.7,8.7,8.7,8.7,8.7) 
注意 到 理想 曲线 确立 了 可 达 的 最 高 检索 质量 ， 对 于 一 个 算法 ， 通 过 将 其 CG 和 DCG 的 平均 
曲线 和 理想 平均 曲线 进行 比较 ， 就 能 更 深入 地 了 解 还 有 多 少 提升 的 空间 。 

4. 归 一 化 折扣 黑 积 增益 

精度 和 召回 率 数 值 可 以 直接 与 各 召回 率 上 均 是 100% 精 度 的 理想 曲线 进行 比较 。 然 而 ， 
DCG 数值 不 是 相对 于 任何 理想 曲线 建立 的 〈 即 使 我 们 能 绘制 出 理想 的 DCG 曲线 来 理解 可 达 
的 最 大 检索 质量 ) 。 其 结果 是 我 们 难以 对 两 个 不 同 的 排序 算法 直接 比较 其 DCG 曲线 。 而 这 
可 以 通过 归 一 化 DCG 指标 来 修正 。 

定义 ”给 定 一 组 N, 个 测试 查询 的 平均 CG、ICG、DCG 和 IDCG 曲线 ， 妇 一 化 CG 和 
DCG 指标 是 如 下 的 形式 





GT 
ICGLi] 
DCG{[ 
IDCGLi] 
举例 来 说 ， 对 于 样 例 查询 gt Ag, NCG 和 NDCG 向 量 是 如 下 的 形式 
NCG = (0. 17 ,0.09,0.27 ,0. 24,0. 21,0. 33,0. 32, 
0. 35,0. 33,0. 40,0. 40,0. 40,0. 40,0. 40,0. 64) 
NDCG = (0. 17,0. 09,0. 21,0. 20,0. 19,0. 25,0. 25, 
0. 26,0. 26,0. 29,0. 29,0. 29,0. 29,0. 29,0. 38) 
归 一 化 数值 也 可 以 对 单一 的 查询 进行 计算 ， 但 这 里 我 们 关注 整个 测试 集 的 归 一 化 数值 。 
在 NCG 和 NDCG 曲线 下 面积 代表 了 排序 算法 的 质量 。 这 个 面积 越 大 ， 就 认为 结果 越 好 。 这 
样 ， 归 一 化 数值 就 可 以 用 来 比较 两 个 不 同 的 排序 算法 。 而 且 它们 也 能 用 来 比较 在 排序 中 某 个 
给 定位 置 上 的 检索 质量 。 举 例 来 说 ， 给 定 两 个 排序 算法 Ra 和 入 se， 我 们 能 在 位 置 10 比较 它 
们 的 归 一 化 指标 ， 即 我 们 直接 比较 NDCG4L10」 和 NDCGsL10]。 这 类 似 于 为 两 个 算法 在 排 
序 的 位 置 10 比较 精度 数值 ， 即 P@10. 
5， 对 于 DCG 指标 的 讨论 
CG 和 DCG 指标 旨 在 考虑 多 层次 的 相关 性 评价 ， 而 不 是 更 常见 的 用 于 精度 和 召回 率 指 
标的 二 元 相关 性 评价 。 它 的 优点 是 能 够 区 别 高 度 相 关 的 文档 和 轻 度 相关 的 文档 ， 因 为 前 者 有 
着 更 高 的 相关 性 分 数 。 其 内 在 的 缺点 是 要 生成 多 层 相 关 性 水 平 更 难 且 更 耗 时 ， 并 且 由 于 多 层 
相关 性 分 数 往往 依赖 于 主观 性 解释 ， 使 其 更 容易 产生 错误 。 
尽管 有 这 些 内 在 的 困难 ， 但 CG 和 DOG 指标 还 是 表现 出 了 许多 优势 : D 它们 能 够 系统 地 
结合 文档 排序 和 相关 性 分 数 ; D 累积 增益 提供 了 在 排序 中 任意 位 置 上 的 单 值 检索 质量 指标 ， 
且 独 立 于 召回 率 ; 3) 累积 增益 强调 了 相关 文档 在 排序 中 某 个 特定 位 置 所 产生 的 增益 ， 这 使 得 


NCG(Li]= 





(4-19) 
NDCG[i]= 





该 指标 对 野 值 有 更 好 的 免疫 能 力 ; O 折扣 累积 增益 能 够 减少 在 排序 底部 发 现 的 相关 文档 的 影 


响 。 因 此 ， 在 需要 高 度 准确 地 评价 那些 复杂 、 成 熟 ， 且 有 着 相近 检索 质量 的 算法 时 ， 除 了 已 经 
很 完善 的 精度 和 召回 率 指标 外 ，CG 和 DOG 指标 也 是 非常 有 竞争 力 的 一 种 选择 。 


4.3.5 二 元 偏好 


Cranfield 评价 范式 是 基于 对 相关 文档 完全 了 解 的 情况 下 建立 的 ， 即 测试 集中 所 有 的 文档 是 
相对 于 每 个 测试 查询 进行 评价 的 ， 且 每 个 文档 -查询 对 被 赋予 了 一 个 二 元 的 相关 性 评价 。 这 在 
小 文档 集 上 可 以 完成 得 很 好 ， 但 是 对 诸如 TREC, 4.4. 1 节 ) 等 大 文档 集 是 不 实际 的 。 
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对 于 类 似 于 TREC 那样 的 大 文档 集 ， 通 常 是 使 用 聚合 (pooling) 方法 来 代替 原 有 的 方 
案 。 它 是 通过 整合 不 同 的 检索 算法 返回 的 排名 靠 前 的 结果 ， 将 其 存在 库 中 ， 并 为 它们 生成 相 
关 性 评价 。 对 于 小 于 200 万 篇 文档 的 数据 集 ， 库 的 典型 规模 介 于 1000~2000 之 间 。 在 这 样 
的 条 件 下 ， 已 经 证 实 基于 这 个 结果 库 的 相关 性 评价 是 可 靠 的 ， 并 可 以 用 来 有 效 地 比较 不 同系 
统 的 检索 质量 。 也 就 是 说 ，Cranfield 范式 在 TREC 文档 集 的 情况 下 仍 是 有 效 的 ， 该 文档 集 
的 规模 要 比 需 要 赋予 相关 性 评价 的 结果 库 的 规模 大 三 个 数量 级 。 

我 们 在 Web 中 会 遇 到 不 同 的 情况 ，Web 数据 集 是 由 数 以 十 亿 计 的 文档 组 成 的 。 对 于 这 
种 规模 的 文档 集 ， 无 法 保证 聚合 方法 能 够 可 靠 地 比较 不 同 的 Web 检索 算法 。 其 中 潜在 的 主 
要 问题 是 ， 若 对 Web 文档 集 使 用 聚合 方法 ， 则 会 有 许多 没有 见 到 的 文档 视 为 不 相关 。 对 于 
小 文档 集 ， 如 果 相 关 性 评价 的 规模 有 限 ， 也 会 产生 类 似 的 问题 。 因 此 ， 除 了 精度 和 召回 率 之 
外 ， 我 们 还 需要 设计 不 同 的 指标 ， 专 门 对 含有 不 完整 信息 的 结果 进行 评价 。 这 就 是 提出 二 元 
偏好 (Binary Preferences, BPREF) 指标 的 目的 。 我 们 下 面 的 讨论 是 基于 Buckley 和 Voo- 
rhees[ 292] WIE. 

1. Bpref 

诸如 精度 -召回 率 以 及 P@10 等 指标 对 于 明确 评价 为 不 相关 的 文档 和 没有 被 检 出 的 文档 
而 言 是 没有 区 别 的 ， 因 为 它们 都 被 认为 是 不 相关 的 。 对 于 规模 非常 大 的 文档 集 来 说 ， 这 会 成 
为 一 个 不 小 的 问题 ， 因 为 对 于 单一 的 查询 ， 有 太 多 的 文档 没有 检索 出 来 。 一 个 巧妙 应 对 这 个 
间 题 的 方法 是 采用 偏 序 关系 ， 即 利用 任意 两 篇 检 出 文档 之 间 的 偏 序 关系 来 定义 这 个 指标 ， 而 
不 是 直接 使 用 排名 位 置 。 这 就 是 产生 了 二 元 偏好 (Bpref) 指标 的 基本 想法 。 

Bpref 度量 了 对 于 某 个 特定 的 信息 需求 ， 由 专家 确定 的 出 现在 相关 文档 之 前 的 不 相关 文 
档 的 数量 。 这 个 测度 被 称 为 Bpref， 因 为 这 种 倾向 关系 是 二 元 的 ， 即 该 评价 就 是 对 于 给 定 的 
信息 需求 ， 判 断 文档 必 是 否 比 文档 d 更 好 。 例 如 ， 对 于 某 个 信息 需求 ， 任 何 相关 文档 要 比 
不 相关 文档 好 。 

图 4-9 显示 了 在 Bpref 的 计算 中 所 要 考虑 的 文档 集合 。 集 合 j 是 由 专家 对 某 个 信息 需求 
做 出 评价 的 所 有 文档 组 成 的 。 这 个 集合 包含 了 我 们 认为 相关 的 文档 集合 R， 大 小 为 |R|， 以 
及 我 们 认为 不 相关 的 文档 集合 J 一 R， 大 小 是 |] 一 R| 。 集 合 RNA 是 由 答案 集中 的 相关 文档 
组 成 的 ， 而 集合 (J 一 R) 门 A 是 由 答案 集中 的 不 相关 文档 组 成 的 。 


(JERINA: 答案 集中 被 评价 过 
ROA: 答案 集中 的 相关 文档 的 不 相关 文档 


R: 评价 过 的 相关 文档 





.评价 过 的 文档 


A: 答案 集 
图 4-9 用 于 计算 Bpref 的 集合 
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一 种 直接 定义 Bpref 指标 的 可 能 方法 是 计算 在 排序 中 出 现在 相关 文档 前 且 属 于 集合 本 一 
R 的 文档 的 数量 。 然 而 ， 这 会 使 得 该 指标 依赖 于 查询 所 对 应 的 集合 的 大 小 ， 从 而 使 我 们 无 法 
有 效 地 计算 多 个 查询 的 平均 值 。 这 个 问题 是 按照 如 下 的 方法 解决 的 。 
定义 ”给 定 信息 需求 1， 定义 如 图 4-9 所 示 的 集合 J、R 和 A。 如 果 Ra4 是 A 中 答案 的 排 
序 ， 那 么 令 Sa, 表示 文档 只 ERa 的 位 置 。 设 CI-R)NAI) R 是 由 RA 中 前 |R| 篇 被 评 为 
不 相关 的 文档 所 组 成 的 集合 。 定 义 函 数 C(Ra，d;) 是 出 现在 RA 的 前 |RI 篇 不 相关 文档 中 ， 
且 排 在 文档 di 之 前 的 不 相关 文档 的 个 数 。 也 就 是 
C(Rasd;) = {di |d ELJ — R) N Ar A saa < sa 
HEAP Ra 的 Bpref 定义 为 
(1 | C(Ra.d,) ) 
d e RAA min( |R|, [J —R) N AJ) 
注意 集合 J-RPNARELFIR RM. EMRE. RA CI-RNAI r SAF 
(J-R)NA, 并 有 少 于 |R| 篇 的 文档 。 上 面 的 Bpref 的 公式 是 [29] 中 原 公 式 的 变 体 ， 在 
[1500] 中 所 上册。 作者 修正 了 原 公 式 中 的 错误 ， 现 在 这 个 公式 用 于 TREC 实验 当中 [1500]. 
对 排序 中 的 每 篇 相关 文档 d;，Bpref 累加 了 一 个 权重 ， 该 权重 随 着 在 排序 中 位 于 该 文 
档 之 前 的 不 相关 文档 数量 的 增加 而 减 小 。 举 例 来 说 ， 如 果 所 有 的 “J 一 R) 门 A 的 文档 在 排序 
中 都 排 在 d; 之 前 ， 累 加 的 权重 是 0。 也 就 是 说 ， 当 观察 到 (J 一 R) 门 A 中 所 有 的 文档 时 ， 在 
排序 中 后 面 看 到 的 相关 文档 就 不 影响 指标 了 。 如 果 GJG- MNA 中 不 存在 排 在 dj; 之 前 的 文 
档 ， 则 累加 的 权重 是 1。 在 累加 了 所 有 权重 后 ， 其 和 会 被 归 一 化 。 
因为 相关 文档 对 应 的 权重 会 被 归 一 化 ， 并 假设 所 考虑 的 不 相关 文档 的 数目 和 相关 文档 的 
最 大 数目 相同 ， 二 元 偏好 指标 在 不 完整 信息 的 情况 下 仍 能 保持 稳定 ， 可 用 于 在 非常 巨大 的 文 
档 集 上 比较 不 同 的 检索 算法 。 
2. Bpref-10 
由 于 Bpref 倾向 于 用 在 信息 不 完整 的 条 件 下 ， 而 实际 的 情况 可 能 是 已 知 的 相关 文档 的 
数量 较 小 ， 甚 至 小 到 只 有 1 一 2 篇 。 在 这 种 情况 下 ， 指 标 可 能 会 变 得 不 稳定 ， 尤 其 当 用 来 定 
义 CCRa，d;) 的 偏 序 关系 数量 非常 小 的 时 候 。Bpref-10 是 二 元 偏好 的 变 体 ， 引 在 通过 确保 
至 少 可 获得 10 组 偏 序 关系 来 修正 这 个 问题 。 
定义 ”假设 使 用 和 Bpref 同样 的 集合 表示 。 设 OI-RNA) ppb (I-RNA 
中 前 |R| 十 10 篇 文档 组 成 。 而 且 ， 设 Clo(Ra，dj) 是 由 如 下 函数 定义 
Cio (RA di) 一 Il {a lds ELGI — R) N Alien A san < sa? | 





Bpref (Ra) = TRT (4-20) 


那么 ， 





Bpref (Ra) = L 


1 
R a, € RNA) 


( Cio (Ra sd;) 


min(|R|+10,|g — R) NAD (4-21) 


4.3.6 排序 相关 性 测度 


精度 和 召回 率 使 我 们 能 够 比较 两 个 排序 函数 产生 的 结果 的 相关 性 。 然 而 ， 在 某 些 情况 下 
1) 我 们 不 能 直接 度量 相关 性 “比方 说 ， 当 我 们 没有 参考 集 或 者 没有 评测 人 员 时 ); 2) RM 
更 关注 于 了 解 一 个 排序 函数 和 男 一 个 我 们 熟知 的 函数 “例如 向 量 模型 之 间 有 多 大 区 别 。 

在 这 种 情况 下 ， 我 们 关注 于 在 缺少 答案 等 相关 信息 的 条 件 下 比较 由 这 两 个 排序 算法 产生 
的 答案 的 相对 顺序 。 这 可 以 通过 使 用 称 为 排序 相关 性 测度 Crank correlation metric) 的 统计 
函数 来 达到 ， 它 对 每 个 排序 函数 生成 的 排列 顺序 进行 比较 。 排 序 相关 人 性 测度 在 比较 了 两 个 排 
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FR AR: 之 后 ， 会 产生 具有 下 述 属性 的 相关 系数 CR, Re): 

。 —1<C(Ri, R2)<1, 

。 如 果 CC(R1，RR2) 二 1， 那 么 这 两 个 排序 之 间 是 完全 一 致 的 ， 即 它们 是 相同 的 。 

。 如 果 C(R1，Rz) 二 一 1， 那 么 这 两 个 排序 之 间 是 完全 不 一 致 的 ， 即 它们 是 彼此 反 

序 的 。 

。 如 果 C(R1，Rz) 二 0， 那 么 这 两 个 排序 是 完全 独立 的 。 

。 CC(R1，Rz) 值 的 增长 表示 了 两 个 排序 之 间 的 一 致 性 增强 。 

这 里 ,我 们 主要 考虑 两 个 排序 相关 性 测度 斯 皮尔 曼 系 数 [1511] 和 肯 德 尔 系数 
[898]。 我 们 的 讨论 基于 参考 文献 (3, 2, 1052, 1208]. 

1. 斯 皮尔 曼 系 数 

斯 皮尔 曼 系 数 (Spearman Coefficient) 可 能 是 使 用 最 多 的 排序 相关 性 测度 。 它 是 基于 相 
同文 档 在 两 个 待 比 较 的 排序 及 MR 中 的 位 置 区 别 来 构建 的 。 设 54.; 是 文档 a); HR 中 
的 位 置 ，s;,; 是 文档 dj; ERR: 中 的 位 置 。 作 为 示例 ， 表 4-1 展示 了 10 个 样 例文 档 ， 它 们 
在 两 个 排序 及 和 RR 中 的 位 置 ， 相 同文 档 在 不 同 排序 中 的 位 置 差 值 ， 以 及 这 些 差 值 的 平方 。 

如 果 我 们 观察 表 4-1 PR AR: 的 排序 位 置 的 差 值 ， 我 们 会 发 现 它们 之 间 的 差异 是 很 小 
的 ， 这 表明 了 这 两 个 排序 之 间 有 和 较 好 的 相关 性 。 事 实 上 ， 图 4-10 在 两 维 的 坐标 平面 内 展示 
了 两 个 排序 的 排序 位 置 ， 并 再 一 次 说 明了 它们 之 间 有 紧密 的 联系 。 为 了 对 这 个 相关 性 产生 一 
个 量化 的 评价 ， 我 们 对 每 对 排序 差 值 的 平方 求 和 。 在 表 4-1 中 的 例子 里 ， 这 个 和 是 24。 一 般 
来 说 ， 如 果 有 K 篇 排序 文档 ， 那 么 排序 差 值 平方 和 的 最 大 值 为 

KX(K?—1) 
3 

这 样 ， 对 于 开 王 10， 如 果 两 个 排序 是 完全 不 一 致 的 〈 互 为 反 序 )， 那 么 排序 差 值 平方 和 的 最 
大 值 是 (10X (10: 一 1))/3， 或 330。 相 反 ， 如 果 排 序 完 全 一 致 ， 其 和 是 0。 





















表 4-1 在 排序 及 ! 和 RRz 中 对 应 的 文档 位 置 si 12 — Pa ee 
和 s:, ， 以 及 它们 的 相对 差 什 eS ae 
Sij (S17— 52.5)? ® 
1 2 1 " 8 le a. _ scala 
2 3 1 th edo o — e 
3 l 4 = ® 
4 5 1 4 i e e ee 
5 4 1 21-@- wee 
6 7 1 A , | 
7 8 1 0 2 4 6 8 10 12 
SEARS $ 排序 1 
9 6 9 
10 9 1 图 4-10 K 4-1 中 排序 及 ! AIR: 的 排序 位 置 ， 绘 制 
PERSE A A 24 在 二 维 坐标 系统 内 
现在 让 我 们 考察 分 式 
pS (s1,; — $2.5) 
K x (K? 一 1) 
3 


当 两 个 排序 完全 一 致 的 时 候 ， 其 值 为 0， 当 它们 完全 不 一 臻 〈 互 为 反 序 ) 的 时 候 ， 值 为 十 1。 
如 果 我 们 对 这 个 分 式 乘 以 2， 值 将 移动 到 [0， 十 2] 之 间 。 如 果 我 们 现在 把 结果 减 去 1， 其 


第 4 章 检索 评价 © 113 


值 平 移 到 [一 1， 十 1] 的 区 间 内 。 这 个 推理 过 程 说 明 可 以 按照 如 下 方式 定义 两 个 排序 间 的 相 
关系 数 。 
定义 设 sv 和 soj 是 文档 d 在 两 个 排序 RR 和 Re 中 的 排序 位 置 。 定 义 


6x Dsus $2.5) 


S ， 一 - 
(Ri,R2) = 1 KXK =D (4-22) 


HPS (Ri, R) 是 斯 皮尔 曼 排 序 相 关系 数 ，K 表示 了 排序 集合 的 大 小 。 
对 于 表 4-1 中 的 排序 ， 我 们 有 


S(Ri,R:)=1 


这 表明 了 它们 之 间 有 很 强 的 相关 性 。 
一 个 常见 的 情况 是 在 排序 及 MR: 中 的 文档 个 数 是 不 同 的 。 为 了 解决 这 个 问题 ， 我 们 需 
要 增 广 每 个 排序 ， 使 得 它们 有 相同 的 大 小 。 这 是 按照 以 下 方法 实现 的 。 
D 计算 文档 集合 S,+;， 它 是 由 所 有 属于 某 个 排序 (Ri RR) 的 文档 所 组 成 的 ， 它 的 
大 小 即 是 增 广 排序 的 大 小 ， 即 K= | Sale 
2) 用 所 有 在 SP, HEER 中 的 文档 来 增 广 排序 及 。 这 些 文档 被 加 在 RR1! 的 底部 ， 
但 使 用 的 是 在 Rs 中 的 顺序 。 
D 用 所 有 在 SP, ARER: 中 的 文档 来 增 广 排序 Rs 。 这 些 文档 被 加 在 Rs 的 底部 ， 
但 使 用 的 是 在 RR! 中 的 顺序 。 
下 面 的 例子 说 明了 这 样 的 过 程 。 
Ri = (din sdz ods6 ,de ,ds sdo di ydiz disy ,dao5) 
Re = (ds, sdız3 sds, :ds sds sdas sdas » 250 ss sd) 
R +ı = (qd, ds»dss sde sdg sdo »ds11 sdiz9 s digr sds sdg sdas 1250 odin das) 
R +: = (dss » dirs ,ds sds sds sdas s dag s doso sdis +3 sdo ,ds sdizo »d18? sdas ) 
EPRA ARH: 分 别 表示 增 广 的 及 MR 排序 。 对 于 这 些 增 广 排序 ， 我 们 有 | S| 一 15。 
这 样 ， 








6X24 | «144 
10 x (10: = 1) 990 





= 0. 854 











K 一 15 
Ds a = 258 
_ 6X258 _ 
SCR1,R2) =1 BASD 0. 539 
也 就 是 说 ， 对 于 增 广 排序 的 斯 皮尔 曼 系 数 等 于 0.539。 这 表明 它们 之 间 有 中 等 程度 的 正 相 


关 性 。 

这 里 作为 例子 的 斯 皮尔 曼 系 数 的 计算 假设 了 排序 中 任何 一 对 排序 位 置 总 是 不 同 的 。 也 就 
是 说 ， 

Vij li 天 了 了， Sui Æ Sij 

可 能 会 产生 违反 这 个 条 件 的 情况 ， 例 如 Siro 51M sa 5l ERSAT P, HFR 假定 文 
档 dia 和 da 两 者 有 相同 的 排序 位 置 ， 即 两 者 都 在 排序 的 顶部 。 在 这 种 特殊 的 情况 下 ， 可 以 
使 用 标准 皮尔 生 (Pearson) 相关 系数 来 作为 替代 ， 详 情 见 参考 文献 [1167]. 

2. 肯 德 尔 系数 

尽管 斯 皮尔 曼 系 数 是 一 种 流行 且 被 广泛 采用 的 相关 系数 指标 ， 但 是 我 们 很 难 给 它 赋 一 个 
可 操作 的 解释 。 一 种 替代 方法 是 使 用 一 种 具有 自然 直观 解释 的 相关 系数 ， 同 时 它 也 有 着 更 为 
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简单 的 代数 结构 一 一 肯 德 尔 等 级 相关 系数 (Kendall Tau Coefficient), 
当 我 们 考虑 排序 的 相关 性 时 ， 我 们 首先 想到 两 个 排序 是 否 以 相似 的 模式 进行 变化 ， 即 它 
们 是 否 有 相同 的 变化 趋势 。 举 例 来 说 ， 给 定 两 篇 文档 d 和 d;， 以 及 它们 在 排序 及 AR 中 
的 位 置 。 则 这 两 篇 文档 在 每 个 排序 中 的 排序 位 置 的 差异 是 
Sik 一 Sij 


3S2 T Say; 


如 果 这 些 差异 有 相 辣 的 正 负 号 ， 那么 我 们 说 文档 二 元 组 Ld d] 在 这 两 个 排序 中 是 协调 
的 。 如 果 它 们 的 正 负 号 不 同 ， 那 么 我 们 说 这 个 文档 二 元 组 在 这 两 个 排序 中 是 不 协调 的 。 一 种 
简单 的 计算 这 两 个 排序 之 间 的 相关 性 强度 的 方法 是 对 其 中 协调 和 不 协调 文档 二 元 组 的 个 数 进 
行 计数 ， 并 计算 两 者 之 间 的 差 。 
举例 来 说 ， 对 于 表 4-1 中 排序 及 : 的 前 5 篇 文档 〈 即 假设 K 二 5)， 排 序 文档 二 元 组 是 
[diz sds, J » [diz ds ] ’ [as sds] > Ladiz; ,ds ] 多 
[ds ,dss J » [as sds J ’ [ass dy | ld 
Lass sd; ]>» Ldss ;dsj， 
[ds ,ds] 


合计 有 去 X5X4， 即 10 个 偏 序 对 。 也 就 是 说 ， 给 定 一 个 大 小 为 K 的 排序 ， 这 个 排序 有 对 应 


HEKK- 个 偏 序 对 。 对 于 表 4-1 中 的 排序 Rs 的 前 5 篇 文档 也 重复 相同 的 操作 ， 我 们 有 


[dss sdi] , [dss sda] 9 [as rds | » [dss rds | 9 
[diz dea | > dirs rds | 9 [dies sde] ’ 
[Las ,ds » [ds ds | 9 
[as ,ds] 
比较 这 两 组 偏 序 对 ， 寻 找 协调 和 不 协调 的 二 元 组 。 让 我 们 把 所 有 协调 二 元 组 标 为 C， 所 有 不 
协调 二 元 组 标 为 忆 。 对 于 排序 ， 我 们 有 
C,D,C,C, 
D,C,C, 
C.C, 
D 
对 于 排序 及 2 ， 我 们 有 
D,D,C,C, 
C,C,C, 
C,C, 
D 
也 就 是 说 ， 这 两 个 排序 一 起 生成 了 总 共 20 个 ， 即 KCK 一 1) 个 偏 序 对 。 在 其 中 ，14 对 二 元 
组 是 协调 的 ，6 对 二 元 组 是 不 协调 的 。 那 么 ， 这 两 组 排序 是 协调 的 概率 PR =R) 是 14/20, 
排序 间 不 协调 的 概率 PCRiAR2) 是 6/20。 肯 德尔 系数 被 定义 为 


TCR Ra) = POR = Ra) — PCR Æ R2) (4-23) 
在 我 们 的 例子 中 
14 6 _ 
TR Re) = 90 20 一 0. 4 


这 表明 了 两 个 排序 之 间 具 有 中 等 程度 的 正 相关 性 。 
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定义 BAR, R) 是 一 个 函数 ， 返 回 两 个 排序 及 ! 和 Ra 之 间 的 不 协调 二 元 组 的 个 
数 。 那 么 ， 这 两 个 排序 之 间 的 协调 二 元 组 的 个 数 是 KKD AR, R), AH, 
P(R: = Re) _K(K—1) — ACR, Re) 


K(K— 1) 
ACRI R) 
PCRi Æ R2) “KKD 
肯 德 尔 系数 Ri, Rd RELA PRISER) —P(RIÆR:), H 
— 2X ACR R2) 
TCR R2) =1 —K(K—1) (4-24) 


注意 其 值 域 是 [一 1，1]。 
对 于 之 前 例子 中 的 情况 ， 我 们 有 ACR, R2=6 入 二 5。 这 样 ， 


(Ri Ra = 1— ss 


(5 — 1) 
该 结果 与 前 面 的 计算 结果 相同 。 

肯 德 尔 系数 仅 是 为 相同 一 组 元 素 的 不 同 排序 定义 的 。 如 果 有 必要 比较 不 同 集合 间 的 排 
È, 那么 一 种 方法 是 用 一 个 排序 中 的 文档 去 增 广 另 一 个 排序 中 缺少 的 文档 ， 正 如 我 们 在 斯 皮 
尔 曼 系数 中 所 做 的 那样 。 

肯 德 尔 系数 相 比 斯 皮尔 曼 系 数 有 更 简单 的 代数 结构 ， 有 清楚 而 直观 的 解释 。 尽 管 斯 皮尔 
曼 系 数 更 流行 ， 但 在 计算 排序 相关 性 时 肯 德 尔 系数 其 实 是 更 合适 的 选择 。 对 于 一 些 使 用 这 两 
个 指标 的 讨论 可 参考 [678, 1208]. 


4.4 参考 文档 集 


对 于 小 的 文档 集 ， 人 们 可 以 应 用 Cranfield 评价 范式 ， 对 给 定 信息 需求 的 检索 结果 中 的 
每 篇 文档 提供 相关 性 评价 。 然 而 ， 对 于 大 的 文档 集 ， 不 是 所 有 文档 都 能 够 针对 某 个 给 定 的 信 
息 需 求 进行 评价 。 其 替代 方式 是 对 给 定 的 信息 需求 ， 采 用 由 不 同 的 排序 算法 生成 的 前 & 篇 文 
档 ， 并 把 它们 集合 在 一 个 库 (pool) 中 ， 仅 对 这 个 库 中 的 文档 进行 评价 ， 这 也 称 为 育 合 方法 
(pooling method)。 它 基于 这 样 的 假设 ， 相关 文档 更 有 可 能 在 不 同 的 排序 顶部 找到 。 这 个 方 
法 对 于 包含 几 百 万 文档 的 参考 文档 集 是 十 分 有 效 的 ， 例 如 非常 流行 的 TREC XAR., RN 
接 下 来 将 对 其 进行 具体 讨论 。 


0.4 


4. 4. 1 TREC 参考 集 


信息 检索 中 的 研究 经 常 受到 两 方面 的 批评 。 首 先 ， 它 缺乏 一 个 更 形式 化 的 框架 作为 基 
础 。 其 次 ， 它 缺乏 可 靠 、 一 致 的 测试 平台 和 基准 。 第 一 项 批评 是 难以 回避 的 ， 这 完全 取决 于 
判断 文档 和 信息 需求 之 间 相 关 性 的 固有 主观 因素 。 因 此 ， 至 少 现在 ， 信 息 检 索 中 的 研究 不 得 
不 在 这 种 非 形式 化 的 基础 上 前 进 。 然 而 ， 对 于 第 二 项 批评 ， 我 们 可 以 采取 一 些 措施 ， 即 我 们 
接 下 来 讨论 的 内 容 。 

1. TREC 会 议 

在 信息 检索 研究 开展 的 30 年 间 ， 其 实验 都 是 基于 相对 较 小 的 测试 集 ， 这 样 的 条 件 无 法 
反映 大 的 文献 环境 下 的 主要 问题 ， 而 且 很 难 在 不 同 检索 系统 之 间 做 出 比较 ， 因 为 不 同 的 研究 
小 组 分 别 集中 在 检索 的 各 个 不 同方 面 来 进行 实验 ， 且 没有 公认 的 基准 。 在 20 世纪 90 年 代 初 
期 ， 作 为 对 于 这 种 无 秩序 状态 的 回应 ， 由 美国 国防 部 高 级 研究 计划 局 (Defense Advanced 
Research Projects Agency, DARPA) 和 中 央 情 报 局 (Central Intelligence Agency, CIA) 
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资助 的 TIPSTER 文本 计划 启动 了 。TIPSTER 计划 依靠 美国 海军 空间 与 海战 系统 中 心 
(Space and Naval Warface Systems Center，SPAWAR ) 和 国家 标准 与 技术 研究 所 (National 
Institute of Standards and Technology, NIST) 的 紧密 合作 来 进行 联合 管理 ， 直 至 1998 年 
项 目 结 题 。 其 主要 的 成 果 之 一 是 在 TIPSTER 计划 的 第 一 阶段 (1991 一 1994 年 ) 启动 了 文本 
检索 会 议 (Text Retrieval Conferences, TREC), EFUB“ MA NIST, 在 Donna Harman 
和 Ellen Voorhees 领导 下 ，TREC 会 议 逐 渐 走 向 繁荣 ， 尽 管 TIPSTER 计划 已 经 在 1998 年 
结束 了 。 

TREC 是 一 个 年 度 会 议 ， 引 在 对 由 数 百 万 文档 组 成 的 大 型 测试 集 进行 实验 。 每 届 TREC 
会 议 都 会 设计 一 组 实验 。 参 加 这 个 会 议 的 研究 小 组 通过 这 些 实验 来 比较 他 们 的 检索 系统 。 关 
于 举办 TREC 会 议 的 目的 ， 在 NIST TREC 网 站 [1594] 上 可 以 找到 一 份 清楚 的 声明 ， 内 
容 如 下 所 示 : 

TREC 系列 会 议 是 由 NIST 和 DARPA 信息 技术 办 公 室 作为 TIPSTER 文本 计 

划 的 一 部 分 进行 联合 主办 的 。 该 系列 会 议 的 目的 是 鼓励 在 大 规模 文本 应 用 下 的 信息 

检索 研究 ， 即 提供 大 规模 测试 集 ， 统 一 评价 过 程 ， 以 及 为 试图 比较 其 评测 结果 的 组 

织 机 构 提 供 一 个 论坛 。TREC 会 议 的 与 会 人 员 必 须 是 参加 了 TREC 检索 任务 的 研 

究 和 开发 人 员 ， 或 者 是 从 主办 单位 挑选 出 来 的 政府 公职 人 员 。 

TREC 会 议 的 参与 者 采用 了 广泛 的 检索 技术 ， 包 括 使 用 自动 同义词 典 、 复 杂 的 

索引 项 权重 赋值 、 自 然 语 言 技术 、 相 关 反 馈 和 高 级 模式 匹配 。 每 个 系统 在 相同 的 

2GB 文本 (超过 100 万 篇 文档 ) 测试 集 和 一 组 称 为 “主题 ”(topic) 的 给 定 信息 需 

求 上 运行 。 检 索 结 果 用 公共 评价 包 来 评价 ， 这 样 不 同 的 研究 组 可 以 比较 不 同 技术 的 

效果 ， 并 确定 这 些 差别 是 如 何 影 响 系 统 质量 的 。 

由 于 文档 集 是 在 TIPSTER 计划 下 构建 的 ， 因 此 它们 经 常 称 为 TIPSTER 或 者 TIPSTER/ 
TREC 测试 文档 集 。 然 而 ， 在 这 里 ， 为 了 简单 起 见 ， 我 们 称 之 为 TREC 文档 集 。 

第 1 届 TREC 会 议 在 1992 年 11 月 于 NIST 举 办 ， 而 第 2 届 TREC 会 议 举 办 于 1993 年 
的 8 月 。 在 2006 年 的 11 月 , 第 15 届 TREC 会 议 也 在 NIST 举办 ， 共 有 107 家 参加 单位 
[1649]。 第 18 届 TREC 会 议 于 2009 年 11 月 在 NIST 举办 。 对 于 各 届 TREC 会 议 ， 详情 见 
[1594], 

接 下 来 ,我们 将 简要 地 讨论 TREC 文档 集 和 TREC 会 议 的 〈 基 准 ) 任务 。 大 部 分 的 
TREC 测试 集 是 由 三 个 部 分 组 成 的 : 文档 、 样 例 信 息 需 求 〈 在 TREC 术语 中 称 为 主题 ) 和 
每 一 个 样 例 信 息 需 求 的 一 组 相关 文档 。 而 且 ，TREC 会 议 也 包括 一 组 作为 基准 的 任务 。 

2. 参考 文档 集 

TREC 的 主 文档 集 在 过 去 数 年 中 稳步 地 增长 。 在 TREC-3 中 ， 文 档 集 的 大 小 大 约 是 
2GB; 而 在 TREC-6 H, 已 经 增长 到 大 约 5.8GB。 在 TREC-15 H, KW (Terabyte) 
任务 的 测试 文档 集 〈 称 为 GOV2) 共有 从 “. gov” 域 下 网 站 抓 取 的 2500 万 Web 文 档 。 
如 何 获取 测试 数据 和 主题 ， 及 其 相关 文档 集 的 信息 可 以 在 NIST TREC 的 网 站 上 找到 
[1594], 

TREC-6 Ad Hoc 参考 集 存 储 在 5 IKK CD-ROM, 每 张大 约 有 1GB 的 压缩 文档 。 还 有 一 张 
额外 的 磁盘 包括 了 分 流 Grouting) 任务 的 数据 ， 但 我 们 在 这 里 不 讨论 。Disk 1 一 Disk 5 也 用 
F TREC-7 和 TREC-8 会 议 。 这 些 文档 出 自 以 下 来 源 : 

WSJ— «Wall Street Journal) (华尔街 日 报 ) 

AP 一 一 美 联 社 ， 新 闻 专 线 (Associated Press, news wire) 
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ZIFF 一 一 计算 机 文章 选读 ， 齐 夫 - 戴 维 斯 (Computer Selects articles, Ziff-Davis) 

FR 一 一 《Federal Register》( 联 邦 公 报 ) 

DOE—— «US DOE Publications》( 美 国 能 源 部 报告 ， 摘 要 》 

SJMN 一 一 《San Jose Mercury News) (Œ ti rita AR) 

PAT—— «US Patents) (美国 专利 ) 

FT—— (Financial Times) (金融 时 报 ) 

CR 一 一 《Congressional Record) (国会 记录 ) 

FBIS 一 一 美国 中 央 情 报 局 对 外 广播 情报 处 (Foreign Broadcast Information Service) 

LAT 一 一 《LA Times》( 洛 杉 矶 时 报 ) 

表 4-2 说 明了 每 张 CD 的 内 容 和 一 些 关于 文档 集 的 简单 统计 ， 来自 [1651j]。 所 有 文档 
MET SGML 标记 使 得 解析 变 得 容易 。 所 有 文档 的 主要 结构 是 一 个 包含 文档 编号 的 二 DOC- 
NO 二 域 ， 以 及 包含 文档 正文 的 <TEXT> 域 。 子 集 之 间 的 次 结构 可 能 不 同 ， 以 此 保存 原始 
文档 中 的 部 分 结构 。 这 是 NIST 对 于 格式 的 原则 : 更 可 能 多 地 保留 原来 的 结构 ， 并 提供 公用 
的 框架 ， 这 样 使 得 文档 解析 变 得 简单 。 


表 4-2 ”用 于 TREC-6 的 文档 集 。 依 照 [1640]， 禁 用 词 没 有 去 挤 ， 也 没有 抽取 词 干 


wa ne jim XA a Crt 
1 WSJ, 1987—1989 267 98 732 245 434.0 
AP, 1989 254 84 678 446 473.9 
ZIFF 242 75 180 200 473.0 
FR, 1989 260 25 960 391 1315.9 
DOE 184 226 087 111 120. 4 
2 WSJ, 1990—1992 242 74 520 301 508. 4 
AP, 1988 237 79 919 438 468. 7 
ZIFF 175 56 920 182 451.9 
FR, 1988 209 19 860 396 1378. 1 
3 SJMN, 1991 287 90 257 379 453.0 
AP, 1990 237 78 321 451 478.4 
ZIFF 345 161 021 122 295. 4 
PAT, 1993 243 6711 4445 5391.0 
4 FT, 1991—1994 564 210 158 316 412.7 
FR, 1994 395 55 630 588 644.7 
CR, 1993 235 27 922 288 1373. 5 
5 FBIS 470 130 471 322 543. 6 
LAT 475 131 896 351 526.5 
6 FBIS 490 120 653 348 581.3 





TREC 文档 的 一 个 例子 是 在 《Wall Street Journal) (华尔街 日 报 〉 的 子 集中 编号 为 
880406-0090 的 文档 ， 如 图 4-11 所 示 (摘自 [704])。 更 多 关于 TREC 文档 集 的 详情 可 从 
[1594，1651] 中 获悉 。 


160 


162 


118 。 #48 检索 评价 





<doc> 


<docno> WSJ880406-0090 </docno> 

<hl> AT&T Unveils Services to Upgrade Phone Networks Under Global Plan </hl> 
<author> Janet Guyon (WSJ Staff) </author> 

<dateline> New York </dateline> 


<text> 

American Telephone & Telegraph Co. introduced the first of a new generation of phone 
services with broad ... 

</text> 


</doc> 








图 4-11 编号 为 WSJ880406-0090 的 TREC 文档 


3. TREC Web 文档 集 

Web 检索 任务 是 在 TREC-9 中 引入 的 ， 红 在 构建 一 个 能 够 最 大 程度 模仿 Web 环境 的 文 
档 集 。 甚 目的 是 把 注意 力 从 在 过 去 的 TREC 会 议 中 占 主导 的 、 封 闭 的 随机 Cad hoc) 检索 任 
务 转移 到 Web 环境 下 ， 在 这 种 环境 下 ，ad hoc 任务 中 采用 的 评测 方法 无 法 用 于 数 以 亿 计 的 
查询 和 文档 。 

TREC Web 文档 集 显 示 在 表 4-3 中 。 这 些 文档 集 和 任务 ， 以 及 之 前 引入 的 超大 规模 文档 
集 (Very Large Collection，VLC) ， 对 于 信息 检索 的 研究 有 着 十 分 积极 的 影响 。 除 了 TREC 
之 外 ,许多 发 表 在 主流 会 议和 期 刊 中 的 论文 也 基于 TREC 开发 的 VLC/Web 文档 集 开 展 
实验 。 
表 4-3 TREC Web 文档 集 。VLC2 文档 集 是 从 1997 A Internet Archive HERA, WT2g 和 WT10g 文档 集 


Æ VLC2 集合 的 子 集 。“. GOV” 文 档 集 源 自 于 对 “. gov” 因 特 网 站 点 的 砍 取 ， 由 Waterloo 大 学 在 
2002 年 完成 的 。“. GOV2” 文档 集 是 NST 和 Waterloo 大 学 在 2004 年 的 合作 成 果 























文档 集 文档 数量 平均 文档 大 小 文档 集 大 小 
VLC2(WT100g) 18 571 671 5. 7KBytes 100GBytes 
WT2g 247 491 8. 9KBytes 2. 1GBytes 
WTlog 1692096 6. 2KBytes 10GBytes 
. GOV 1 247 753 15. 2KBytes 18GBytes 
. GOV2 27million 15KBytes 400GBytes 








4. 信息 需求 主题 的 例子 

TREC 文档 集 包 含 一 组 样 例 信 息 需 求 ， 可 用 于 测试 一 个 新 的 排序 算法 。 每 个 信息 需求 都 
是 用 自然 语言 进行 描述 的 。 在 TREC 术语 中 ， 测 试 信息 需求 称 为 主题 〈topic) 。 一 个 信息 需 
求 的 例子 是 TREC-3 中 编号 为 168 的 主题 ， 如 图 4-12 所 示 ( 源 自 参考 文献 【704]) 。 

把 信息 需求 〈 主 题 ) 转变 为 一 个 系统 查询 〈 即 一 组 索引 项 、 布 尔 表 达 式 、 模 糊 表 达 式 ) 
的 任务 必须 由 系统 本 身 完成 ， 作 为 整个 评价 过 程 中 的 一 个 重要 组 成 部 分 。 

在 前 八 届 TREC 会 议 中 准备 的 主题 数量 累计 达到 了 450 个 。 编 号 1 一 150 的 主题 用 于 
TREC-1 和 TREC-2 会 议 。 它 们 是 由 真实 系统 中 的 熟练 用 户 编写 的 ， 代 表 了 长 期 存在 的 信息 
需求 。 编 号 151~200 的 主题 用 于 TREC-3 会 议 ， 这 些 主题 更 短 ， 有 着 更 简单 的 结构 ， 仅 包 
括 三 个 子 域 ， 分 别 是 标题 (Title), HA (Description) 和 陈述 (Narrative), WA 4-12 所 
示 。 编 号 201~250 的 主题 用 于 TREC-4 会 议 ， 相 比 过 去 的 主题 ， 它 的 长 度 更 短 。TREC-5 
包含 了 主题 251~300，TREC-6 包含 了 主题 301 一 350， 这 些 主题 是 通过 和 TREC-3 主题 一 
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样 的 方式 进行 准备 的 ， 根 据 TREC-4 中 的 主题 进行 扩展 ， 因 为 TREC-4 的 主题 被 认为 是 太 短 
了 。TREC-7 和 TREC-8 各 增加 了 额外 的 50 个 主题 ， 这 样 总 数 达 到 了 450 个 。 








<top> 


<num> Number: 168 
<title> Topic: Financing AMTRAK 





<desc> Description: 
A document will address the role of the Federal Government in 
financing the operation of the National Railroad Transportation Corporation 
(AMTRAK). 


<narr> Narrative: A relevant document must provide information on the government’s 
responsibility to make AMTRAK an economically viable entity. It could also discuss 
the privatization of AMTRAK as an alternative to continuing government subsidies. 
Documents comparing government subsidies given to air and bus transportation with 
those provided to AMTRAK would also be relevant. 


</top> 





图 4-12 TREC 文档 集中 编号 为 168 的 主题 


5. 每 个 信息 需求 的 相关 文档 

在 TREC 会 议 中 ， 每 个 样 例 信息 需求 的 相关 文档 集 是 从 可 能 相关 的 文档 库 中 获取 的 。 
这 个 库 是 由 参与 会 议 的 各 个 检索 系统 所 产生 的 排序 中 前 K (通常 K= 100) 篇 文档 构成 的 。 
然后 ， 将 库 中 的 文档 提交 给 评测 人 员 ， 他 们 最 终 决 定 每 篇 文档 的 相关 性 。 

这 项 估计 相关 性 的 技术 称 为 聚合 方法 (pooling method) [1651]， 它 基于 两 个 假设 : 首 
先 ， 大 部 分 相关 文档 收集 在 这 个 集成 库 中 了 。 其 次 ， 不 在 库 中 的 文档 可 以 认为 是 不 相关 的 。 
这 两 个 假设 在 TREC 会 议 的 测试 中 证 明 是 准确 的 。 这 些 相关 性 评估 的 详细 描述 可 以 在 


[704, 1 


651] PRAL 


6. TREC 会 议 的 基准 任务 
TREC 会 议 包 括 两 个 主要 的 信息 检索 任务 [704]。 第 一 项 称 为 随机 (ad hoc) 检索 任 
务 ， 有 一 组 新 的 (常规 ) 需求 ， 运 行 在 一 个 固定 的 文档 库 上 。 这 是 在 图 书馆 系统 中 经 常 出 现 


的 情况 ， 


其 中 用 户 对 于 一 组 固定 的 文档 询问 新 的 查询 。 第 二 项 称 为 分 流 (routing) 任务 ， 


即 在 一 个 持续 变化 的 文档 库 上 搜索 一 组 固定 的 需求 。 这 是 类 似 于 过 滤 的 任务 ， 对 于 一 组 动态 


的 文档 


(比如 ， 新 闻 摘 要 服务 ) 总 是 询问 一 组 相同 的 问题 。 然 而 ， 与 纯 过 滤 任 务 不 同 的 是 ， 


检 出 文档 必须 是 排序 的 。 
对 于 ad hoc 任务 ， 参 加 的 系统 会 收 到 测试 信息 需求 ， 并 在 一 个 预先 定义 的 文档 集 土 执 


行 它们 。 


对 于 分 流 任务 ， 参 与 系统 会 收 到 测试 信息 需求 和 两 个 不 同 的 文档 集 。 第 一 个 文档 集 


是 用 于 训练 的 ， 从 而 可 以 调整 检索 算法 。 第 二 个 文档 集 用 于 测试 调整 好 的 检索 算法 。 
从 TREC-4 会 议 开 始 ， 除 了 ad hoc 和 分 流 任务 外 ， 引 人 了 新 的 次 一 级 任务 ， 旨 在 允许 
不 同系 统 间 进 行 更 特殊 的 比较 。 在 TREC-6 中 ，8 项 特别 的 次 一 级 任务 被 加 入 进来 ， 具 体 如 


下 所 示 。 





中 文 (Chinese) 文档 和 主题 都 是 中 文 的 ad hoc 任务 。 

a (Filtering) 一 一 检索 算法 只 需要 确定 一 篇 新 到 的 文档 是 相关 《相关 的 话 ， 就 
接收 这 篇 文档 ) 还 是 不 相关 的 〈 不 相关 ， 则 丢弃 此 文档 ) ， 不 需要 提供 文档 的 排序 。 
测试 数据 (输入 的 文档 ) 是 根据 时 间 戳 的 顺序 处 理 的 。 

交互 〈Interactive) 在 这 项 任务 中 ， 搜 索 人 员 和 检索 系统 互动 ， 以 确定 相关 文 
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档 。 文 档 被 裁定 为 相关 或 不 相关 不 提供 排序 )。 

。 自然 语言 处 理 (NLP) 一 一 这 项 任务 旨 在 验证 与 基于 索引 项 的 传统 检索 算法 相 比 ， 
基于 自然 语言 处 理 的 检索 算法 是 否 具 有 优势 。 

ad hoc 任务 ， 文 档 使 用 某 种 语言 ， 但 是 主题 使 用 另 一 





。 跨 语言 (Cross language) 
种 语言 。 
。 高 精度 (High precision) 检索 系统 的 用 户 被 要 求 在 5 分 钟 内 检 出 10 篇 能 回答 
一 个 给 定 〈 而 且 之 前 是 未 知 的 ) 信息 需求 的 文档 。 
。 语音 文档 检索 (Spoken document retrieval) 一 一 文档 是 电台 广播 新 闻 的 书面 转录 。 
旨 在 激励 对 于 语音 文档 的 检索 技术 的 研究 。 
。 超大 规模 语料库 (Very large corpus) 
规模 的 文档 集 (750 万 篇 文档 ) 。 
在 TREC-7 H, NLP 和 中 文 次 级 任务 不 再 继续 开展 。 此 外 ， 由 于 普遍 认为 过 滤 任 务 是 
一 个 更 现实 的 分 流 任务 ， 分 流 任务 不 再 作为 主要 任务 。TREC-7 也 包括 了 一 项 新 的 任务 ， 称 
为 查询 任务 (query task)， 其 中 为 每 个 样 例 信息 需求 生成 了 多 个 不 同 的 查询 [1651]。 这 项 
任务 的 主要 目的 是 研究 依赖 于 查询 的 检索 策略 在 TREC 文档 集 上 可 能 会 导致 的 问题 ， 这 些 
问题 源 于 信息 需求 的 稀疏 性 ， 而 过 去 的 TREC 会 议 中 的 信息 需求 之 间 很 少 有 重 秋 的 情况 
产生 。 
在 TREC-8 中 ， 信 息 检 索 界 意识 到 从 ad hoc 任务 中 无 法 学 到 更 多 额外 的 东西 。 在 经 过 8 
年 广泛 的 实验 之 后 ， 大 家 清晰 地 认识 到 对 于 由 不 同系 统 所 产生 的 结果 ， 其 质量 都 进 人 了 平台 
期 。 尽 管 排序 算法 确实 在 过 去 数 年 间 有 了 一 些 进步 ， 但 是 在 最 后 的 几 年 里 已 经 趋 于 平稳 ， 这 
意味 不 再 有 充足 的 理由 去 花费 大 量 资源 运行 ad hoc 任务 了 。 另 外 ， 这 也 标志 着 独立 研究 能 
够 在 已 经 完善 的 TREC 参考 文档 集 上 继续 。 因 此 ，ad hoc 任务 在 TREC-9 中 不 再 开展 。 
最 近 的 TREC 会 议 集中 在 新 的 、 还 没有 完善 设立 的 任务 上 。 其 目的 在 于 用 这 些 任务 的 
经 验 去 开发 可 供 学 术 界 进一步 研究 和 实验 的 新 参考 文档 集 。 举 个 例子 ， 在 2006 年 举办 的 
TREC-15 中 ， 主 要 的 任务 是 问答 (query answering)、 基 因 检 索 (genomics), KF PMR 
(terabyte) 、 企 业 检 索 (enterprise)、 垃 圾 过 滤 (spam)、 法 律 检 索 (legal)、 博 客 检 索 
(blog). ith TREC 会 议 中 的 具体 任务 和 文档 集 可 参考 文献 (1649, 1650]. 
除了 提供 要 执行 任务 的 详细 描述 之 外 ，TREC 会 议 也 清晰 地 区 分 了 把 以 自然 语言 方式 表 
达 的 信息 需求 转化 为 查询 表示 (这 可 能 是 向 量 形式 和 布尔 形式 ) 的 两 种 基本 技术 。 在 
TREC-6 会 议 中 ， 可 使 用 的 查询 构建 方法 分 为 自动 方法 ， 它 从 测试 信息 需求 完全 自动 地 产生 
查询 ， 以 及 手动 方式 ， 即 采用 除 自动 方式 之 外 的 任何 其 他 方法 [1651]。 
7. TREC 会 议 的 评测 指标 
TREC 会 议 使 用 四 项 基本 的 评测 指标 : 摘要 统计 表 、 平 均 召 回 率 -精度 、 文 档 等 级 平均 
精度 和 平均 精度 直方 图 (这 些 指 标的 详情 可 见 4. 3 节 )。 
。 摘要 统计 表 一 一 这 张 表 总 结 了 对 于 某 给 定 任务 的 统计 数据 。 这 些 统计 数据 包括 E 
题 (信息 需求 ) 的 个 数 、 在 所 有 主题 上 检 出 的 文档 数量 、 所 有 主题 上 有 效 检 出 的 相 
关 文 档 数 量 、 所 有 主题 上 可 能 检 出 的 相关 文档 数量 。 
。 平均 召回 率 -精度 一 一 这 是 一 张 表 或 者 图 ， 含有 11 个 标准 召回 率 在 所 有 主题 上 对 应 
的 平均 精度 。 由 于 单个 查询 的 召回 率 水 平 很 少 和 标准 召回 率 水 平 相同 ， 因 此 通常 使 
用 插值 来 定义 标准 召回 率 水 平 上 的 精度 。 而 且 ， 也 可 能 包括 从 所 有 查询 所 见 过 的 相 
关 文 档 中 产生 的 非 插 值 平均 精度 。 








ad hoc 任务 ， 检 索 系 统 必 须要 处 理 20GB 
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。 文档 等 级 平均 精度 一 一 这 些 是 在 特殊 的 文档 个 数 立 值 上 “而 非 标准 召回 率 水 平 ) 计 
算 的 精度 数值 。 举 例 来 说 ， 可 能 要 综合 排名 前 5、10、20、100 篇 文档 处 的 精度 来 计 
算 其 平均 精度 。 而 且 ， 也 可 以 提供 在 所 有 查询 上 的 平均 R 精度 (R-precision)。 

。 平均 精度 直方 图 这 是 一 张 图 ， 其 中 每 一 个 主题 分 别 对 应 一 个 指标 。 直 方 图 对 比 
了 一 个 给 定 主题 的 检索 结果 的 平均 精度 和 所 有 其 他 系统 对 于 这 个 主题 给 出 的 检索 结 
果 的 平均 精度 ， 它 能 让 我 们 具体 了 解 单个 系统 对 于 哪些 主题 能 回答 得 很 好 ， 哪 些 不 
能 提供 良好 的 答案 。 





4.4.2 其 他 参考 集 

除了 上 述 讨论 的 文档 集 之 外 ， 其 他 受到 关注 的 参考 文档 集 包 括 INEX, Reuters, OH- 
SUMED, NewsGroups、 NTCIR 和 CLEF。 

1. INEX 参考 集 

INEX (Initiative for the Evaluation of XML Retrieval) 是 一 项 专门 为 评价 XML 检索 效 
果 而 设计 的 测试 数据 集 。 它 对 于 XML 界 而 言 是 非常 重要 的 ， 扮 演 了 类 似 于 TREC 文档 集 在 
信息 检索 界 的 角色 。 在 第 13 章 中 还 会 进行 详细 的 讨论 。 

2. Reuters, OHSUMED 和 NewsGroups 参考 集 

Reuters 是 一 个 由 路 透 社 (Reuters) 出 版 的 新 闻 文 章 构成 的 参考 集 。 它 包含 了 超过 80 
万 篇 的 文档 ， 分 为 103 个 主题 类 别 。OHSUMED 是 一 个 由 大 约 348 000 份 医疗 参考 文献 组 
成 的 参考 集 ， 这 些 文献 出 自 于 Medline 数据 库 ， 是 从 1987—1991 年 出 版 的 270 份 期 刊 中 挑 
选 出 来 的 。 每 篇 参考 文献 都 包含 了 人 工 赋予 的 医疗 主题 词 (Medical Subject Headings, 
MeSH) 或 者 医疗 类 别 。NewsGroups 是 一 个 由 数 以 千 计 的 新 闻 组 信息 组 成 的 参考 集 ， 它 分 
成 了 20 个 组 ， 而 这 些 组 可 以 广义 地 解释 为 类 别 。 这 三 个 文档 集中 ， 每 篇 文档 都 有 分 类 
(category) 或 种 类 (class) 信息 ， 这 使 得 它们 尤其 适合 于 文本 分 类 算法 的 评价 。 因 此 ， 在 
8. 6. 6 节 中 还 会 继续 讨论 它们 。 

3. NTCIR 参考 集 

NTCIR(NII Test Collection for IR Systems) 项 目 [1212] 每 年 都 会 举办 名 为 NTCIR 
的 研讨 会 ， 旨 在 加 强 信息 检索 、 问 题 回答 、 文 本 摘要 和 和 信息 抽取 等 领域 的 研究 。 这 些 研 讨 会 
收集 了 由 日 文 专利 和 英文 专利 组 成 的 多 种 参考 集 。 它 们 一 般 称 为 NTCIR 文档 集 ， 可 以 用 于 
在 专利 检索 、 专 利 翻译 和 跨 语言 检索 上 进行 详细 的 实验 。 举 例 来 说 ，NTCIR-7 PATMT 
(Patent Translation Test) 数据 集 [1213] 包括 了 180 万 个 翻译 句 对 日文- 英文 )、5200 个 
测试 句 对 、124 个 查询 以 及 对 翻译 结果 的 人 工 评价 。 

4. CLEF 参考 集 

跨 语 言 信 息 检 索 与 评价 研讨 会 (Workshop on Cross-Language IR and Evaluation, 
CLEF) ， 是 一 个 主要 针对 跨 语言 检索 (Cross-Language IR, CLIR 研究 及 相关 问题 的 年 度 
会 议 。 为 了 支持 实验 过 程 ， 会 议 在 过 去 数 年 间 收 集 了 多 个 不 同 的 CLEF 参考 集 。 它 们 支持 不 
同类 型 的 CLIR 实验 ， 例 如 多 语言 文档 检索 、 交 互 式 跨 语言 检索 、 多 语言 问题 回答 、 跨 语言 
图 像 检 索 、 多 语言 信息 过 滤 、 跨 语言 视频 检索 、 知 识 产 权 和 日 志文 件 分 析 。 感 兴趣 的 读者 可 
参考 文献 [393]. 


4.4.3 其 他 小 规模 测试 文档 集 
在 过 去 几 年 里 ， 信 息 检 索 界 也 使 用 了 许多 小 的 测试 文档 集 。 由 于 它们 的 规模 较 小 ， 因 此 
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不 再 被 视 为 代表 现 有 水 平 的 测试 文档 集 。 尽 管 有 这 种 局 限 性 ， 但 它们 仍然 是 有 用 的 ， 对 于 新 
的 排序 算法 来 说 ， 在 利用 Web 和 Tree 等 现 有 水 平 大 规模 文档 集 上 进行 验证 以 前 ， 可 以 先 在 
小 文档 集 上 进行 早期 实验 。 

一 个 具有 代表 性 的 包含 9 个 小 规模 测试 4-4 用 于 早期 实验 的 小 规模 测试 文档 集 











文档 集 的 参考 集 是 由 弗吉尼亚 理工 学 院 的 Ed _ 文 档 集 主题 文档 数量 。 查询 数量 
Fox 收集 的 。 这 些 文档 集 的 基本 属性 在 表 4-4 ADI Information Science 82 35 
中 列 出 , CACM Computer Science 3200 64 
另 一 个 受到 关注 的 小 规模 测试 文档 集 是 ISI Library Science 1460 76 
CRAN Aeronautics 1400 225 
赛 肿 性 纤维 化 〈Cystic Fibrosis, CF) 文档 Lisa Library Science 6004 35 
S [1454]。 它 是 在 MEDLINE 数据 库 中 由 MeD Medicine 1033 30 
“cystic fibrosis” 索 引 的 1239 篇 文档 和 由 一 NLM Medicine 3078 155 
名 在 囊肿 性 纤维 化 方 面 有 着 20 年 临床 和 研究 NPL Elec. Engineering 11 429 100 
经 验 的 专家 生成 的 100 个 信 息 需 求 组 成 的 。 TIME Ceneral Articles 423 83 


与 别 的 数据 不 同 ， 这 个 文档 集 对 每 篇 相关 文档 分 别提 供 了 4 个 相关 性 分 数 。3 个 相关 性 分 数 
是 由 专家 提供 的 ， 而 第 4 个 相关 性 分 数 是 由 一 个 医疗 目录 学 家 提供 的 。 分 数 在 O~2 之 间 ，2 
表示 高 相关 性 。 

尽管 其 规模 小 ， 但 CF 文档 集 有 两 个 重要 特性 。 首 先 ， 其 相关 分 数 是 由 专家 通过 仔细 地 
评价 策略 直接 生成 的 。 其 次 ， 相 对 于 文档 集 的 规模 ， 它 包括 了 多 个 信息 需求 ， 因 而 各 个 查询 
向 量 之 间 也 有 重 倒 。 这 使 得 我 们 能 够 测试 利用 过 去 的 查询 会 话 来 提高 检索 质量 的 检索 策略 。 


4.5 基于 用 户 的 评价 


用 户 的 偏好 受到 用 户 界 面 以 及 与 界面 交互 的 难 易 程度 的 影响 。 举 例 来 说 ， 现 在 众所周知 
的 是 ， 搜 索引 擎 的 用 户 会 首先 查看 结果 页 面 的 左上 角 〈 见 第 5 章 )。 这 样 ， 改 变 结果 页 面 的 
布局 可 能 会 影响 用 户 的 评估 和 他 们 的 行为 。 对 用 户 界 面 和 由 用 户 开始 的 交互 过 程 进 行 适当 的 
评价 需要 使 用 专门 的 交互 系统 评价 方法 ， 这 种 方法 超出 了 Cranfield 实验 的 框架 ， 我 们 接 下 
来 将 进行 具体 的 讨论 。 

4.5.1 实验 室 中 的 人 工 实验 

为 了 评价 用 户 界 面 对 用 户 偏好 的 影响 ， 一 般 需 要 运行 多 个 评价 会 话 。 除 了 用 户 界面 的 几 
个 专属 特性 之 外 ， 它 们 看 起 来 几乎 相同 ， 以 此 测量 它们 对 于 用 户 偏好 的 影响 。 这 类 评价 方法 
在 实验 室 封 闭 的 环境 中 以 及 仔细 挑选 的 实验 人 员 身 上 可 以 完成 得 更 好 。 

通过 实验 室 中 的 人 工 实验 可 以 理解 用 户 和 系统 交互 的 动态 特性 ， 这 是 用 静态 的 参考 集 无 
法 评价 的 。 它 们 的 缺点 是 需要 昂贵 的 代价 来 建立 或 者 重复 ， 而 且 局 限于 一 小 组 由 相对 少量 的 
人 员 提 出 的 信息 需求 。 尽 管 有 这 些 缺 点 ， 但 实验 室 中 的 人 工 实验 还 是 很 有 价值 的 ， 因 为 它 对 
基于 参考 集 的 评测 所 产生 的 信息 进行 了 补充 。 

尽管 我 们 在 这 里 不 会 广泛 地 讨论 实验 室 中 的 人 工 实 验 ， 但 我 们 接 下 来 会 介绍 并 排 面 


板 一 一 实验 室 中 ， 利 用 人 来 进行 评价 的 一 个 实例 。 进 一 步 的 参考 文献 可 以 在 4. 8 节 中 找到 。 





4.5.2 并 排 面 板 


如 果 要 评价 由 两 个 不 同系 统 或 者 同一 个 排序 函数 的 不 同 版 本 所 产生 的 结果 ， 一 种 形式 是 
将 它们 产生 的 前 K 个 检索 结果 并 排 显示 并 评测 。 典 型 地 ， 我 们 会 查看 两 个 系统 对 于 给 定 查 
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询 所 产生 的 前 10 篇 结果 ， 它 们 并 排 显 示 ， 一 组 在 屏幕 的 左 半 部 分 ， 另 一 组 在 屏幕 的 右 半 部 
分 。 并 排 显 示 结 果 可 以 对 照 1) 对 于 每 个 主题 的 意见 差异 ; 2) 顶部 排序 结果 对 于 用 户 意见 
的 影响 。 我 们 的 讨论 基于 文献 [1581], 

这 里 讨论 的 方法 称 为 并 排 面板 (side-by-side panel)， 它 由 如 下 部 分 组 成 : 收集 两 个 搜 
索引 擎 对 于 相同 查询 的 排名 靠 前 的 答案 ， 并 排 展示 它们 ， 且 使 用 一 个 共同 的 背景 来 遮盖 布局 
当中 那些 可 能 会 暴露 其 答案 来 源 的 细节 。 图 4-13 显示 了 一 个 例子 ， 这 个 面板 包含 了 由 雅虎 
和 谷歌 搜索 引擎 对 于 查询 “information retrieval evaluation” 生 成 的 前 5 项 答案 。 
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图 4-13 包含 了 由 雅虎 和 谷歌 搜索 引擎 对 于 查询 “information retrieval evaluation” 生成 的 前 5 项 
答案 的 并 排 面板 。 布 局 已 经 把 图 标 和 标记 去 掉 ， 因 为 它们 可 能 会 透露 出 答案 的 来 源 


并 排 实验 的 评价 只 需要 简单 地 判断 哪 一 边 在 评估 员 的 眼中 能 为 给 定 的 查询 提供 更 好 的 结 
果 。 举 例 来 说 ， 对 于 图 4-13 中 的 查询 “information retrieval evaluation”, 4 名 评估 员 认 为 左 
边 的 面板 更 好 ， 而 1 名 评估 员 认 为 右边 更 好 。 这 样 我 们 就 有 理由 相信 列 在 左边 面板 的 答案 要 
比 右边 面板 的 答案 和 查询 更 相关 。 注 意 这 里 并 没有 评价 某 个 特定 答案 的 优 劣 。 

通过 记录 选中 的 用 户 和 这 两 个 面板 的 交互 过 程 ， 我 们 就 能 推断 用 户 更 偏向 哪 组 答案 集 作 
为 查询 的 答案 。 由 于 我 们 能 即时 生成 并 排 面板 〈 通 过 包装 实时 查询 流 的 结果 )， 因 此 它们 可 
以 用 于 快速 比较 不 同 的 搜索 引擎 。 而 且 ， 由 于 其 动态 的 特性 ， 即 它们 可 以 在 实时 搜索 流 上 执 
行 和 度量 的 这 一 特性 ， 因 此 它们 在 评价 受 关 注 的 一 段 时 间 内 的 短期 趋势 方面 具有 吸引 力 。 

在 并 排 实 验 中 ， 用 户 明白 他 们 正在 参加 一 项 实验 。 而 且 ， 并 排 实验 不 能 在 之 前 执行 过 的 相 
同 条 件 下 重复 ， 因 为 实时 查询 流 的 条 件 会 根据 时 间 不 停 地 变化 。 最 终 ， 并 排 面板 无 法 测量 系统 
A 比 系统 B 好 多 少 ， 也 不 能 直接 在 多 个 系统 之 间 进 行 比较 。 尽 管 有 这 些 缺 点 ， 但 并 排 面板 构成 
了 一 种 动态 评价 方法 ， 提 供 对 系统 深入 的 理解 ， 从 而 对 其 他 评测 方法 进行 了 有 效 的 补充 。 


4. 5.3 A/B 测试 


A/B 测试 ， 也 称 为 木 桶 测试 (bucket testing) ， 是 如 今 的 一 种 流行 方法 。 它 是 由 数 以 千 
计 的 网 站 预选 用 户 来 执行 评价 实验 的 。 举 例 来 说 ， 它 可 能 会 向 预选 用 户 展示 页 面 布局 的 改 
变 。 通 过 分 析 用 户 如 何 对 这 个 变化 做 出 反应 ， 可 以 获知 这 个 修改 是 否 是 积极 有 益 的 。 即 使 不 
是 实验 室 的 环境 ， 但 它 也 提供 了 一 种 人 工 实 验 的 方法 。 

通常 ， 被 选中 的 用 户 组 只 占 网 站 全 体 用 户 的 一 小 部 分 ， 但 却 非常 具有 代表 性 。 这 个 技术 对 
经 常 被 使 用 的 站 点 是 尤其 重要 的 ， 因 为 启用 一 个 糟糕 的 修改 可 能 会 让 许多 用 户 感 到 不 快 。 更 多 
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关于 A/B 测试 的 讨论 ， 请 参考 文献 [920，921，456] 和 2.5 节 的 搜索 界面 设计 与 评价 。 


45.4 众 包 


目前 ， 相 关 性 评价 方法 有 许多 的 局 限 性 。 举 个 例子 ， 大 量 的 编辑 人 员 使 用 Cranfield 范 
式 评 价 搜 索 结 果 的 相关 性 是 代价 昂贵 的 ， 很 难 规模 化 。 在 没有 这 些 编辑 人 员 的 情况 下 ， 学 术 
研究 人 员 经 常 依靠 学 生 志 愿 者 组 成 的 小 组 。 由 于 学 生 有 限 ， 且 他 们 的 时 间 也 受 限制 ， 因 此 测 
试 集合 通常 比 期 望 的 要 小 ， 使 得 我 们 难以 测试 待 评估 实验 系统 的 检索 质量 是 否 有 统计 意义 上 
的 显著 差异 。 

行为 数据 要 比 编辑 数据 更 廉价 ,但 也 有 其 局 限 性 。 它 需要 获得 大 量 的 数据 流 ， 而 研究 人 
员 在 测试 实验 系统 的 时 候 并 不 一 定 能 得 到 这 样 的 数据 ， 而 且 这 样 的 流 数据 对 某 些 任务 是 没有 
用 处 的 。 

ERK, RE (Crowdsourcing) 已 经 演化 为 一 种 可 行 的 相关 性 评价 方法 ， 因 为 它 在 更 大 
规模 数据 上 保持 了 编辑 方法 的 灵活 性 [37]j。 众 包 这 个 词 用 来 描述 某 种 任务 ， 它 们 外 包 给 一 
KAKA “THE 〈worKer)” 的 人 ， 而 不 是 由 正式 雇员 或 者 合同 工 来 完成 。 众 包公 开 号 召 
人 们 来 解决 问题 ， 或 者 执行 某 项 任务 ， 通 常 使 用 者 需要 支付 费用 来 得 到 这 项 服务 。 

较 低 的 实验 费用 使 得 这 个 方法 很 有 吸引 力 ， 并 能 快速 地 测试 新 想法 。 世 界 各 地 有 越 来 越 
多 的 网 络 用 户 参与 进来 ， 这 对 于 实验 来 说 是 一 个 很 好 的 样本 集 。 举 例 来 说 ， 众 包 已 经 用 来 验 
证 搜索 片段 的 质量 ， 详 见 第 11 章 。 

使 用 众 包 执行 评价 的 最 重要 因素 之 一 ， 是 仔细 地 设计 实验 。 要 用 简单 有 效 的 方法 来 提出 
正确 的 问题 ， 这 需要 在 问卷 和 调查 的 设计 过 程 中 有 正确 的 方针 和 准则 。 工 作者 和 Web 浏览 
器 进行 交互 ， 所 以 使 用 众所周知 的 可 用 技术 来 展示 信息 是 很 重要 的 。 工 作者 不 是 信息 检索 专 
家 ， 所 以 任务 设计 人 员 应 该 提供 清楚 的 指示 ， 表 明 如 何 评价 文档 的 相关 性 ， 如 果 可 能 的 话 ， 
应 当 提 供 样 例 。 

从 工作 者 那里 获得 反馈 信息 是 一 种 极 好 的 验证 答案 的 机 制 ， 在 一 切实 验 中 都 应 该 具备 。 
对 反馈 的 后 处 理 能 有 助 于 改进 指示 和 系统 。 

之 前 的 研究 已 经 表明 ， 这 种 方法 能 为 TREC 数据 [36] 和 自然 语言 文本 标注 [1499] 
产生 相同 质量 的 评价 结果 。 其 他 的 应 用 是 用 于 机 器 学 习 的 数据 生成 和 排序 函数 的 特征 选择 。 
应 使 用 测试 者 之 间 的 一 致 性 指标 来 确保 这 些 评价 是 良好 一 致 的 [888]， 无 论 平台 是 内 部 还 是 
外 部 系统 。 对 于 外 部 的 众 包 平台 ，AMT 是 最 为 著名 的 ， 我 们 接 下 来 将 进行 具体 的 讨论 。 

亚马逊 土耳其 机 器 人 

亚马逊 土耳其 机 器 人 (Amazon Mechanical Turk, AMT) 是 众 包 平台 的 一 个 例子 
[40]。 在 这 项 服务 中 ， 称 为 “turker” 的 参与 人 员 执行 称 为 “HIT” 的 人 类 智能 任务 ， 以 换 
取 少 量 的 报酬 。 任 务 是 由 评价 需求 方 提出 的 。 尽 管 需求 方 无 法 知道 参与 者 的 身份 ， 但 这 项 服 
务 仍然 能 产生 高 质量 的 结果 [861, 1540]. 

E AMT E, 需求 方 是 有 工作 需要 完成 的 个 人 或 组 织 。“turker” 是 希望 注册 来 完成 任 
务 的 人 ， 在 系统 中 描述 为 工作 者 。 每 一 个 人 类 智能 任务 (Human Intelligence Task, HIT), 
或 者 要 执行 的 工作 单元 ， 都 有 一 个 相对 应 的 支付 报酬 ， 以 及 分 配 的 完成 时 间 ， 工 作者 在 选择 
是 否 执 行 任务 前 ， 能 看 到 样 例 HIT 以 及 支付 的 报酬 和 时 间 信 息 。 可 以 使 用 资格 测试 来 控制 
工作 的 质量 。 资 格 测试 是 一 组 问题 KAUF HIT)， 工 作 人 员 必 须 回 答 来 获取 资格 然后 才能 
在 这 些 任务 上 工作 。 

AMT 使 得 开发 人 员 能 够 把 人 类 智能 作为 他 们 应 用 程序 的 核心 部 分 。 开 发 人 员 使 用 Web 
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服务 API 提交 任务 ， 批 准 已 完成 的 任务 ， 把 答案 集成 到 他 们 的 软件 应 用 中 。 对 于 应 用 ， 这 
项 工作 看 起 来 非常 像 某 种 远程 调用 。 应 用 发 送 需 求 ， 服 务 返回 结果 。 人 们 访问 网 站 来 寻求 任 
务 ， 为 他 们 完成 的 工作 收取 报酬 。 除 了 API 之 外 ， 也 可 以 在 原型 实验 中 使 用 包含 多 个 有 用 
特性 的 控制 面板 来 进行 互动 。 


45.5 使 用 点 击 数据 的 评价 


尽管 参考 集 提供 了 有 效 的 手段 去 评价 结果 集合 的 相关 性 ， 但 它们 往往 只 能 应 用 在 相对 少 
量 的 查询 上 。 举 例 来 说 ，Web 搜索 引擎 的 查询 日 志 通 常 是 由 数 十 亿 查 询 构 成 的 ， 而 评估 人 
员 的 评价 结果 就 仅 限 于 由 几 百 个 查询 组 成 的 查询 样本 ， 要 超出 这 个 阔 值 是 非常 昂贵 的 。 因 
此 ， 基 于 参考 集 的 Web 搜索 引擎 评价 有 着 很 大 的 局 限 性 。 搜 索引 人 擎 的 动态 特性 ， 即 用 户 偏 
好 和 文档 集 的 经 常 变化 ， 使 得 这 些 局 限 性 变 得 更 加 棘手 。 也 就 是 说 ，Cranfield 范式 不 是 很 
适合 直接 应 用 在 Web 中 ， 需 要 由 别 的 评价 方法 来 补充 。 

一 种 非常 有 希望 的 方法 是 基于 点 击 数 据 的 分 析 进 行 评价 。 这 是 通过 观察 用 户 点 击 某 个 给 
定 文档 〈 当 该 文档 出 现在 给 定 查询 的 答案 集中 ) 的 频繁 程度 来 实现 的 。 这 一 方法 非常 有 吸引 
力 ， 因 为 点 击 数据 能 以 很 低 的 代价 来 搜集 ， 而 不 需要 额外 的 用 户 开 支 。 为 了 保证 该 方法 的 有 
效 性 ， 需 要 进行 仔细 的 实验 设计 ， 因 为 点 击 数据 组 成 了 一 种 隐 式 的 用 户 反馈 ， 这 比 由 评估 人 
员 提 供 的 直接 相关 反馈 有 更 多 的 噪声 。 我 们 这 里 的 讨论 基于 Joachims [842] 的 工作 。 

1. 有 偏 的 点 击 数据 

一 种 对 点 击 数据 的 直接 使 用 方法 是 比较 两 个 不 同 的 搜索 引擎 A 和 B， 所 生成 的 排序 RR。 
和 Ra 的 点 击 率 。 举 例 来 说 ， 假 设 不 同 的 用 户 在 不 同 的 时 间 指 定 了 相同 的 查询 。 对 于 每 一 个 
这 样 的 查询 ， 我 们 随机 选择 两 个 搜索 引擎 中 的 一 个 ， 并 把 结果 展示 给 用 户 ， 而 不 让 他 们 知道 
使 用 了 哪个 引擎 。 然 后 ， 我 们 记录 用 户 对 答案 的 点 击 。 这 个 过 程 在 多 个 不 同 的 查询 上 重复 ， 
并 对 每 个 查询 记录 其 点 击 数据 ， 这 样 我 们 就 可 以 对 每 个 查询 做 平均 了 。 

通过 比较 数 以 百 万 计 的 点 击 数据 ， 我 们 希望 能 判断 用 户 群 更 偏向 于 哪个 搜索 引擎 。 然 
而 ， 点 击 数据 难于 解释 。 举 例 来 说 ， 假 设 有 查询 9， 用 户 已 点 击 了 排序 Rs 的 答案 2、3 和 4， 
以 及 排序 RRs 的 答案 1 和 5。 对 第 一 种 情况 ， 平 均 点 击 排序 位 置 是 (2 十 3 十 4)/3， 等 于 3。 在 
第 二 种 情况 下 ， 是 (1 十 5)/2， 也 等 于 3。 这 是 否 意味 着 对 这 个 查询 ， 两 个 搜索 引擎 提供 了 
差不多 的 结果 ? 而 引擎 A 的 用 户 点 击 了 首 篇 文档 下 面 的 文档 ， 是 否 这 个 情况 更 重要 呢 ? 这 
个 例子 说 明了 点 击 数据 难以 分 析 。 

上 面 例子 的 主要 问题 是 点 击 数据 不 能 完全 指示 相关 性 。 也 就 是 说 ， 被 高 度 点 击 的 文档 不 
一 定 是 相关 的 。 它 们 可 能 只 是 相对 于 答案 集中 的 其 他 文档 更 符合 用 户 需 求 而 已 。 因 此 ， 由 于 
点 击 数据 是 一 个 相对 测度 ， 因 此 难以 用 它们 来 直接 比较 两 个 不 同 的 排序 算法 ， 因 为 一 个 算法 
产生 的 结果 和 另 一 个 没有 关联 。 

我 们 说 收集 到 的 点 击 数据 是 有 偏 的 ， 因 此 不 能 用 于 直接 比较 搜索 引擎 。 替 代 的 方法 是 融 
合 两 个 排序 来 收集 无 偏 的 点 击 数据 。 

2. 无 偏 的 点 击 数据 

为 了 从 用 户 处 搜集 无 偏 的 点 击 数据 ， 我 们 混合 两 个 排序 算法 的 结果 集 ， 从 而 保证 任 一 排 
序 产 生 的 文档 点 击 数据 总 是 和 另 一 排序 相关 联 ， 这 样 我 们 就 可 以 比较 两 个 排序 的 点 击 数据 。 
为 了 混合 两 个 排序 的 结果 ， 我 们 查看 并 混合 每 个 排序 靠 前 的 文档 结果 ， 以 保证 在 结果 的 答案 
集中 没有 重复 的 文档 。 在 图 4-14 中 显示 的 算法 能 达到 这 种 效果 ， 它 是 在 文献 [842] 中 提出 
的 。 调 用 combine_ranking(Ra, Rs, 0, 0, Ø), JLHERR« 的 首 篇 文档 揪 入 融合 排序 丸 。 
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后 面 再 调用 combine_ranking(Ra, Rs, 1, 0, R), Re 中 的 一 篇 文档 放 人 了 融合 排序 及 
中 。 人 唯一 的 限制 是 从 Rs 中 选 出 放 入 的 











文档 应 当 还 没有 加 入 到 融合 排序 及 中 。 | (D Input: Ra = (arya2,...), Ra = (bi,bza,...). 

为 此 ， 我 们 遍历 Rs 直到 我 们 找到 还 没 | Eee ere Ra ee 1 

有 加 入 到 RR 中 的 文档 ， 这 是 通过 北 归 调 | (O HETA RR RERA) 

用 函数 combine_ranking 来 实现 的 。 (© combine ranking(Ra, Rp ka +1, hy, R) 
融合 排序 有 一 个 特殊 的 属性 , 在 | (7) } else { 

前 + 篇 答案 组 成 的 集合 中 ， 来 自 两 个 | 四。 oR Rokoke LR) 

排序 的 答案 数量 之 差 不 会 超过 1。 通 过 }} 

为 融合 排序 搜集 点 击 数据 ， 我 们 确保 

数据 是 无 偏 的 ， 反 映 用 户 可 预测 的 偏 图 4-14 混合 两 个 排序 的 算法 


好 ， 具 体 如 下 所 示 。 
无 偏 的 点 击 数据 : ER 和 Ra 是 由 两 个 不 同 的 排序 函数 生成 的 结果 集合 。 结 
果 集 合 是 通过 调用 combine_ranking(Ra, Re, 0, 0, Ø) 来 确保 在 排序 中 的 任何 
一 点 ， 前 篇 文档 结果 包含 及 4 的 前 r。 个 结果 以 及 Rs HBr, AAR, L 
| 六 一 记 | 委 1。 融 合 排序 接 下 来 展现 给 用 户 ， 而 点 击 数据 也 会 被 记录 。 
在 这 些 条 件 下 ， 可 以 证 明 : 
排序 及 4 比 排序 有 Ra 包含 更 多 的 相关 文档 ， 当 且 仅 当 RR4 的 点 击 率 比 RRa 的 点 击 
沸 高 。 最 重要 的 是 ， 在 一 般 的 假设 下 ， 如 果 要 比较 两 个 排序 算法 ， 基 于 融合 排序 点 
击 数据 的 方法 和 基于 人 工 评估 相关 性 的 方法 所 产生 的 比较 结果 是 一 致 的 。 
这 是 一 个 惊人 的 结果 ， 它 表明 了 用 户 点 击 数据 和 答案 相关 性 之 间 的 联系 。 


4.6 实践 说 明 


本 章 的 大 部 分 内 容 都 是 度量 检索 系统 对 于 给 定 的 一 组 查询 在 特定 的 文档 集 上 的 平均 质量 。 
在 实践 中 ， 这 种 标准 评价 方法 有 两 个 需要 注意 的 地 方 : 简单 的 实验 设计 和 简单 的 比较 指标 。 

简单 的 实验 设计 有 助 于 其 他 人 进行 重复 验证 。 也 就 是 说 ， 我 们 更 推荐 使 用 公开 的 参考 
集 。 另 一 方面 ， 有 些 试 验 结果 只 在 一 部 分 文档 集 上 有 效 ， 而 无 法 推广 到 其 他 文档 集 上 。 因 
此 ， 使 用 多 个 文档 集 可 以 更 好 地 展示 系统 的 改进 程度 。 对 查询 也 是 如 此 。 也 就 是 说 ， 可 能 会 
有 一 个 检索 系统 A 对 于 一 组 查询 能 获得 更 好 的 检索 质量 ， 但 是 对 于 另 一 组 查询 则 不 如 检索 
系统 B。 因 此 ， 使 用 多 组 尽 可 能 真实 的 查询 ， 可 以 更 有 力 地 表明 我 们 获得 了 更 好 的 检索 质 
量 。 这 里 另 一 个 问题 是 ， 我们 应 该 使 用 多 少 查询 来 确认 性 能 提升 的 统计 显著 性 。 这 依赖 于 使 
用 的 统计 显著 性 测度 ， 统 计 表 可 以 告诉 你 需要 多 少 实验 来 达到 你 想 要 的 显著 性 水 平 。 遗 憾 的 
是 ， 许 多 研究 结果 使 用 任意 的 、 小 规模 的 查询 ， 而 没有 分 析 其 在 某 个 置信 和 度 水 平 上 的 有 效 
性 。 对 于 这 个 问题 ， 我 们 在 45.3 节 的 A/B 测试 中 已 经 有 所 前 述 。 另 一 方面 ， 其 他 一 些 作 
者 相信 显著 性 测试 不 是 很 有 用 [1791]。 最 后 ， 时 间 也 是 一 个 值得 注意 的 问题 ， 由 于 文档 集 
和 查询 可 能 一 直 在 变化 ， 特 别 是 对 Web 来 说 更 是 如 此 。 所 以 , 今天 最 好 的 检索 系统 ， 不 一 
定 在 明天 仍然 是 最 好 的 。 

第 二 个 需要 注意 的 是 比较 的 方法 。 首 先 ， 和 一 个 简单 的 基准 进行 比较 会 更 容易 ， 但 是 这 
并 不 表示 你 的 检索 系统 打败 了 最 先进 的 系统 。 所 以 ,我 们 鼓励 使 用 更 加 强大 的 系统 作为 基 
准 。 另 一 方面 ， 有 些 新 技术 也 许 无 法 提高 现 有 水 平 ， 但 却 可 能 有 着 不 可 忽视 的 其 他 优点 。 举 
例 来 说 ， 如 果 一 项 新 颖 而 简单 的 技术 在 性 能 上 能 够 接近 于 那些 复杂 的 最 优 技术 ， 那 么 它 一 定 
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是 很 引 人 关 注 的 。 其 次 ， 仅 仅 测 量 平均 值 可 能 会 给 人 误导 性 的 结果 。 举 例 来 说 ， 系 统 A 可 
能 在 平均 水 平 上 比 系统 B 要好， 但 这 可 能 只 是 由 于 系统 B 中 某 个 查询 的 效果 很 糟糕 ， 而 其 
他 查询 的 结果 其 实 却 比 A 更 好 。 所 以 ， 检 索 质 量 的 可 变性 也 是 很 重要 的 〈 参 考 文献 【777] 
中 使 用 了 波动 性 〈volatility) 这 个 词 )。 举 例 来 说 ， 如 果 有 最 低 检 索 质 量 冰 值 的 限制 ,那么 
你 应 当 使 用 一 直 处 于 阅 值 之 上 的 系统 A， 而 不 是 虽然 平均 水 平 更 好 ， 但 一 半 以 上 的 时 候 都 会 
低 于 阅 值 的 系统 B。 相 反 的 ， 如 果 没 有 系统 具有 高 于 国 值 的 平均 检索 质量 ， 那 么 我 们 会 倾向 
于 使 用 一 半 时 间 要 高 于 阐 值 的 系统 A， 尽 管 系统 B 就 平均 水 平 而 言 会 更 好 。 


4.7 趋势 和 研究 问题 

如 今 的 一 个 主要 趋势 是 研究 交互 式 用 户 界面 及 其 评价 。 其 动机 源 于 一 个 普遍 的 认识 ， 即 
有 效 的 检索 非常 依赖 于 从 用 户 处 获得 合适 的 反馈 。 现 在 的 主要 问题 围绕 在 讨论 哪 种 评价 指标 
最 适用 于 这 种 情景 。 近 来 一 些 较 好 的 范例 是 在 4.5 节 中 已 讨论 过 的 并 排 面板 和 使 用 点 击 数 据 
的 搜索 日 志 分 析 。 

另 一 个 重要 的 趋势 是 众 包 ， 即 让 Web 用 户 来 执行 定义 明确 的 评价 任务 ， 同 时 只 需要 较 
少 的 支出 。 它 以 低廉 的 代价 获得 了 可 扩展 性 ， 并 可 以 产生 不 错 的 结果 〈 如 在 4.5 节 中 讨论 的 
那样 ) 。 如 果 要 对 交互 频繁 的 Web 应 用 进行 仿真 和 评价 ， 那 么 就 必须 采用 像 众 包 那 样 具 有 良 
好 扩展 性 的 评价 方法 ， 考 虑 到 这 一 点 ， 我 们 预计 未 来 会 看 到 这 个 领域 更 多 的 活动 和 研究 。 

此 外 ， 对 于 精度 和 召回 率 的 替代 指标 ， 它 们 的 提出 、 研 究 和 特性 描述 始终 受到 大 家 的 关 
注 ， 尤 其 是 在 那些 精度 ~ 召回 率 数值 无 法 完全 涵盖 的 情景 下 。 两 个 非常 好 的 实例 是 4. 3. 4 节 
讨论 的 DCG 指标 和 4. 3. 5 节 讨 论 的 Bpref 指标 。 


4.8 文献 讨论 

Cranfield 评价 范式 ， 从 最 初 的 概念 到 最 新 的 评价 方法 ， 都 可 以 通过 Cleverdon 关于 这 个 
主题 的 许多 文章 [395，397，396，399] 来 深入 了 解 。Harter 和 Hert 的 工作 [709] 讨论 
了 Cranfield 模型 以 及 对 原 模 型 的 扩充 和 变 体 ， 总 结 了 涵盖 396 篇 参考 文献 的 研究 历程 。 
Saracevik 在 文献 [1424] 中 对 评价 信息 检索 系统 的 方法 和 过 程 进行 了 分 析 ， 这 个 工作 非常 
重要 ， 甚 至 可 以 说 是 历史 性 的 。Buckley 和 Voorhees 在 文献 [291] 中 提供 了 关于 不 同 的 信 
息 检 索 评价 指标 准确 性 的 分 析 ， 以 及 对 于 在 信息 检索 评价 中 经 常 采用 的 经 验 法 则 的 讨论 〈 例 
如 用 于 实验 的 查询 的 个 数 ) 。 

在 Salton 和 McGill 的 书 中 [1414] 有 关于 检索 评价 的 章节 ， 写 得 十 分 出 色 。 即 使 已 经 
过 时 了 ， 但 它 仍然 是 值得 阅读 的 材料 。 对 于 信息 检索 评价 方法 一 般 意 义 上 的 讨论 出 现在 文献 
[1372] 中 。Khorfage 的 书 中 [931] 也 包含 了 一 章 关 于 检索 评价 的 内 容 。Mizzaro 的 工作 
[1145] 讨论 了 160 篇 论文 中 的 结果 ， 提 供 了 多 年 来 相关 性 研究 的 深度 总 结 。 

Shaw, Burgin 和 Howel 的 论文 [1455，1456] 讨论 了 测试 集 的 标准 和 评价 方法 ， 并 且 
分 别 讨论 了 基于 聚 类 的 检索 模型 和 基于 向 量 的 检索 模型 这 两 种 情形 。 这 些 论文 也 讨论 了 以 精 
度 和 召回 率 的 调和 平均 作为 关于 精度 和 召 回 率 的 单一 指标 的 优势 。 Raghavan, Bollmann 和 
Jung 的 论文 [1325，1326] 讨论 了 对 于 需要 文档 弱 排 序 关 系 的 系统 ， 精 度 和 召回 率 可 能 存 
在 的 问题 。Tague-Sutcliffe [1552] 提出 了 一 种 信息 性 测度 ， 用 来 评测 用 户 在 会 话 中 的 交互 
性 。Van der Weide, Huibers 和 van Bommel 在 文献 [1622] 中 提出 了 和 “采摘 ” Cherry 
picking) 模型 类 似 的 新 模型 。 

我 们 对 如 今 信息 检索 实验 中 最 常用 的 文档 集 一 一 TREC 文档 集 的 讨论 ， 是 基于 Harman 
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[704] 以 及 Voorhees 和 Harman[ 1651 ] 的 论文 。 Voorhees 也 提供 了 把 Cranfield 范式 应 用 
到 TREC 文档 集中 的 详细 讨论 [1648j]。 而 且 ， 在 文献 [1647] 中 ， 她 讨论 了 在 TREC 结果 
评价 时 所 用 的 相关 性 评估 方法 的 改变 ， 以 及 其 所 带 来 的 影响 。 

我 们 对 于 其 他 参考 集 也 进行 过 讨论 ， 包 括 INEX、Reuters、OHSUMED、NTCIR 和 
CLEF 文档 集 。 它 们 涵盖 了 近年 来 对 结构 化 文本 检索 、 文 本 分 类 、 跨 语言 检索 和 垂直 文档 集 
的 研究 趋势 。 更 多 相关 文献 的 详情 见 第 8 章 和 第 13 章 。 

近年 来 ， 关 于 检索 评价 的 综述 主要 有 两 个 : 一 个 是 SandersonL1422] 关于 参考 集 使 用 
情况 的 总 结 ， 另 一 个 是 KellyL894] 关于 交互 式 信息 检索 的 讨论 。 

我 们 对 排序 相关 性 测度 的 讨论 涵盖 了 两 种 最 流行 的 方法 ， 也 就 是 斯 皮尔 曼 (Spearman) 
[1052, 1511] 和 肯 德 尔 (Kendal Tau) [3, 898, 1208] 系数 。 我 们 关于 DCG (折扣 累计 
增益 ) 的 讨论 基于 文献 [828，892]。 文 献 [892] 对 二 值 相 关 性 系统 和 分 级 相关 性 系统 (如 
DCG) 在 TREC 文档 集 上 进行 了 比较 。 在 文献 [24] 中 分 别 使 用 了 精度 值 和 DCG 数值 对 
Web 搜索 结果 进行 了 评价 。 结 论 表 明 用 户 的 满意 程度 和 精度 值 与 CG 数值 都 紧密 关联 ， 但 与 
NDCG 数值 关系 不 明显 。 我 们 对 BPref 指标 的 讨论 基于 文献 [292]. 

我 们 对 于 Web 检索 评价 的 讨论 涵盖 了 并 排 面 板 [1581]、 基 于 点 击 的 评价 1842] MR 
包 [37，36，1499，888]。 尽 管 这 些 研究 大 多 数 都 是 最 近 才 提出 的 ， 但 在 这 些 主题 上 不 停 增 
长 的 活动 和 研究 兴趣 表明 ， 这 些 是 Web 中 重要 的 问题 。 

文献 C1163] 讨论 了 使 用 信息 检索 指标 来 评价 基于 内 容 的 图 像 检索 (Content-Based Im- 
age Retrieval, CBIR) 系统 的 方法 。Koenemann 和 Belkin 在 文献 [918] 中 讨论 了 关于 交互 

会 话 的 评价 ， 并 带 有 案例 研究 。 最 近 ，Borlund 提出 了 另 一 种 方法 来 评价 交互 系统 [237]。 

除了 我 们 已 经 讨论 的 这 些 指 标 外 ， 还 有 其 他 的 指标 值得 关注 。 其 中 包括 期 望 搜 索 长 度 
(expected search length) ， 该 指标 适用 于 弱 排 序 文档 集合 ; 满意 度 〈satisfaction) ， 该 指标 仅 
考虑 了 相关 文档 ; 挫折 度 〈frustration)， 该 指标 仅 考 虑 了 不 相关 文档 [931]。 在 文献 

L796] 中 讨论 了 如 何 使 用 统计 测试 来 评估 不 同 信息 检索 评价 指标 的 充分 性 。 
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5.1 介绍 


在 没有 充分 了 解 文档 集 的 情况 下 ， 大 部 分 用 户 党 得 难于 提出 专 为 检索 而 设计 的 查询 。 举 
例 来 说 ， 搜 索引 擎 用 户 经 常 需要 重 构 他 们 的 查询 以 获得 他 们 所 感 兴趣 的 更 好 结果 。 这 种 困难 
表明 ， 初始 查询 表 式 应 该 看 做 是 初次 检索 相关 信息 的 尝试 ， 并 且 可 以 写 出 更 好 的 新 查询 表 式 
来 检索 出 其 他 有 用 的 文档 。 

在 本 章 中 ， 我 们 将 考察 各 种 提升 初始 查询 表 式 的 方法 ， 它 们 大 都 使 用 和 查询 意图 相关 的 
信息 。 我 们 这 里 所 说 的 “相关 的 ”信息 是 指 ， 能 用 于 检 出 可 能 和 初始 查询 相关 的 文档 的 信 
息 。 对 于 修改 查询 的 过 程 ， 如 果 用 户 清楚 地 提供 了 查询 相关 文档 的 信息 ， 那 么 在 文献 中 通常 
称 为 相关 反馈 (relevance feedback); 如 果 查 询 的 相关 信息 用 来 扩展 查询 ， 则 称 为 查询 扩展 
(query expansion) 。 这 里 ， 我 们 把 这 两 者 都 称 为 反馈 方法 。 

我 们 的 讨论 不 是 旨 在 提供 一 个 关于 反馈 方法 的 详尽 综述 。 相 反 地 ， 它 涵盖 了 经 过 挑选 的 
文献 ， 我 们 相信 这 些 文献 是 够 宽泛 ， 可 以 给 出 主要 问题 的 概览 以 及 在 反馈 循环 中 涉及 的 权衡 
问题 。 我 们 区 别 两 种 基本 的 方法 : D 显 式 反馈 ， 用 于 查询 重 构 的 信息 是 直接 由 用 户 提 供 的 ; 
2) 隐 式 反馈 ， 用 于 查询 重 构 的 信息 是 由 系统 潜在 地 提供 的 。 我 们 的 讨论 自然 地 导出 了 一 个 
对 反馈 方法 的 分 类 框架 。 


5.2 反馈 方法 的 框架 


相关 反馈 (relvance feedback) 最 初 由 [1375] 提出 ， 是 指 一 种 反馈 循环 ， 其 中 和 当前 
查询 g 相关 的 已 知 文档 用 来 把 查询 转换 为 改进 查询 quo MAAHI q。 可 以 返回 更 多 与 9 相关 
的 文档 。 文 献 中 的 经 验证 据 表明 相关 反馈 是 有 效 的 ， 它 确实 能 产生 更 好 的 结果 ， 不 仅 对 于 文 
本 ， 对 于 图 像 也 是 如 此 (290, 701, 1396, 1411, 1784], 

然而 ， 获 得 和 当前 查询 相关 文档 的 信息 是 昂贵 的 ， 需 要 用 户 直 接 干 预 。 举 例 来 说 ， 尽 管 
信息 检索 系统 可 以 询问 用 户 对 于 某 个 给 定 查询 的 前 10 篇 文档 是 否 真 的 相关 ， 但 是 大 部 分 用 
户 都 不 愿意 提供 这 样 的 信息 ， 在 Web PLE EMH. AFTRA ARH, BKB 
这 些 年 来 已 经 放松 了 条 件 ， 人 允许 使 用 认为 是 和 查询 相关 的 信息 。 举 例 来 说 ， 不 是 去 询问 用 户 
关于 相关 文档 的 情况 ， 而 是 利用 他 们 已 经 点 击 的 文档 ， 或 者 查看 结果 集中 最 靠 前 文档 中 的 索 
引 项 。 在 这 两 种 情况 下 ， 如 果 假 设 搜集 到 的 信息 和 原始 查询 相关 ， 那 么 我 们 期 望 反 馈 循环 会 
产生 更 高 质量 的 结果 。 

反馈 循环 是 由 两 个 基本 步骤 组 成 的 : 1) 判断 反馈 信息 是 否 和 原始 查询 g 相关 ， 或 者 可 
以 看 做 是 相关 的 ; 2) 如 何 有 效 地 考虑 这 些 信息 ， 以 转化 查询 9。 步骤 1) 可 以 用 两 种 不 同 的 
方法 来 完成 : 显 式 地 从 用 户 处 获得 反馈 信息 ， 或 者 隐 式 地 从 查询 结果 或 者 同义词 典 等 外 部 资 
源 获得 反馈 信息 。 在 生成 反馈 信息 后 ， 步 骤 2) 可 以 通过 各 种 方法 来 完成 ， 我 们 在 本 章 中 将 
详细 进行 讨论 。 用 来 收集 反馈 信息 的 方法 ， 显 式 或 者 隐 式 ， 是 相关 反馈 方法 的 主要 区 别 。 

1. 显 式 反 馈 信息 

在 显 式 相 关 反 馈 循环 中 ， 反 馈 信 息 是 直接 由 用 户 或 者 一 群 人 工 评估 员 提 供 。 在 其 最 初 的 
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形成 过 程 中 ， 用 户 检查 排名 靠 前 的 文档 ， 标 出 确实 和 查询 相关 的 文档 。 为 了 最 小 化 误 判 ， 反 
馈 信息 可 以 从 不 同 的 用 户 处 收集 ， 仅 考虑 大 部 分 用 户 赞 成 的 信息 。 由 于 用 户 可 能 不 愿意 合 
作 ， 或 者 在 相关 性 判断 中 不 可 靠 ， 可 以 考虑 的 一 种 方法 是 邀请 多 名 专家 进行 相关 性 评估 。 但 
是 ， 无 论 是 何 种 情况 ， 收 集 反馈 信息 都 十 分 遇 贵 、 耗 时 。 
在 Web 中 ， 用 户 对 搜索 结果 的 点 击 形成 了 一 个 新 的 反馈 信息 源 。 一 个 点 击 不 一 定 表明 
一 篇 文档 和 查询 项 是 相关 的 ， 但 是 它 表明 了 文档 在 当前 查询 背景 下 用 户 会 感 兴趣 。 图 5-1 说 
明了 两 种 类 型 的 显 式 反馈 循环 : 由 用 户 选 择 的 相关 结果 和 由 用 户 点 击 的 结果 。 在 两 种 情况 
下 ， 我 们 注意 到 用 户 在 反馈 循环 中 都 是 直接 参与 的 。 然 而 ， 在 第 二 种 情况 下 ， 这 种 参与 对 用 
i783] 户 而 言 更 自然 ， 因 为 用 户 不 需要 偏离 当前 的 任务 。 而 且 ， 点 击 信 息 可 以 在 不 干扰 用 户 的 情况 
下 大 量 收集 ， 而 相关 结果 却 不 是 这 种 情况 。5. 3 节 讨 论 了 Rocchio 相关 反馈 方法 ， 这 是 使 用 
相关 结果 来 提高 用 户 查询 的 经 典 方法 。5. 4 节 讨 论 了 一 个 最 新 提出 的 解释 点 击 结果 的 模型 。 
显 式 反馈 
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a) 相关 反馈 b) 点 击 反馈 
图 5-1 显 式 反馈 信息 : a) 用 户 选 择 的 相关 结果 ; bd 用 户 点 击 的 结果 
2. BARRE 


在 隐 式 反馈 循环 中 ， 用 户 没 有 参与 到 反馈 过 程 中 ， 反 馈 信息 隐 式 地 出 自 系 统 。 有 两 种 基 
本 的 方法 可 以 得 到 隐 式 反馈 信息 : D 从 结果 集合 排名 靠 前 的 文档 中 产生 反馈 信息 ， 这 通常 
AARDS (local analysis); 2) 从 外 部 资源 产生 反馈 信息 ， 例 如 同义词 典 ， 或 者 从 文档 
集 构建 的 索引 项 关系 等 ， 这 通常 称 为 全 局 分 析 (global analysis), 
图 5-2 说 明了 这 里 阐述 的 两 种 隐 式 反馈 循环 ， 局 部 分 析 和 全 局 分 析 。 在 这 两 种 情况 下 ， 
079] 用 户 都 没有 直接 参与 到 反馈 循环 中 来 。 显 然 ， 反 馈 信息 不 一 定 和 当前 查询 相关 ， 这 使 得 如 何 
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应 用 这 些 信息 变 得 比 由 用 户 显 式 提 供 反馈 更 具 挑 战 性 。 尽 管 如 此 ， 由 于 隐 式 信息 丰富 ， 可 以 
以 低廉 的 代价 收集 ， 所 以 人 们 一 直 关 注 使 用 隐 式 信息 来 提高 查询 结果 的 方法 。5. 5 节 中 讨论 
了 基于 局 部 分 析 的 相关 反馈 方法 。5. 6 节 讨 论 了 基于 全 局 分 析 的 相关 反馈 方法 。 

隐 式 反馈 


9  ¢ 







全 局 分 析 : 
“外 部 同义词 典 
“ 文档 间 相 似 度 





















改进 的 用 户 查询 q。 ) 改进 的 用 户 查 询 g。 
a) 局 部 分 析 b) 全 局 分 析 


图 5-2 隐 式 反馈 信息 : a) 局 部 分 析 ， 即 从 排名 最 靠 前 的 排序 结果 中 生成 反馈 信息 ; 
b) 全 局 分 析 ， 即 从 外 部 资源 获得 反馈 信息 


5.3 显 式 相关 反馈 


在 经 典 的 相关 反馈 循环 中 ， 给 用 户 一 些 检测 文档 ， 用 户 检查 并 且 标 出 相关 的 文档 。 在 实 
际 应 用 中 ， 只 有 排 在 前 10 篇 (或 20 篇 ) 的 文档 需要 检查 。 其 主要 想法 是 从 用 户 标注 为 相关 
的 文档 中 选 出 重要 的 索引 项 ， 并 在 新 的 查询 表 式 中 加 强 这 些 项 的 重要 性 。 期 望 的 效果 是 新 的 
查询 可 以 靠近 相关 文档 ， 远 离 不 相关 文档 。 

早期 使 用 Smart 系统 [1408」 的 实验 以 及 后 来 使 用 概率 模型 [1365」 的 实验 已 经 证 明 ， 
使 用 相关 反馈 可 以 提高 小 规模 测试 文档 集 的 精度 。 这 样 的 提高 来 自 于 采用 了 两 项 技术 : 添加 
从 相关 文档 中 抽取 的 新 查询 项 的 查询 扩展 ， 和 基于 用 户 相 关 性 判断 的 查询 项 权重 调整 。 

相关 反馈 具有 如 下 的 特性 : 1)〉 它 不 让 用 户 见 到 查询 重 构 过 程 的 细节 ， 因 为 用 户 需 要 提 
供 的 所 有 信息 只 是 对 文档 的 评判 ; 2) 它 把 整个 搜索 任务 分 段 为 一 系列 可 以 更 容易 掌控 的 小 
HR. 

接 下 来 ， 我 们 讨论 相关 反馈 的 应 用 : D 使 用 向 量 模型 的 扩展 查询 ;2) 在 概率 模型 下 重 
新 调整 查询 项 的 权重 。 我 们 也 将 讨论 如 何 评价 相关 反馈 循环 。 


5.3.1 向 量 模型 的 相关 反馈 : Rocchio 方法 


向 量 模型 的 相关 反馈 假设 〈 针 对 某 个 查询 ) 的 相关 文档 之 间 是 类 似 的 ， 即 相关 文档 会 彼 
此 聚合 。 而 且 ， 假 定 不 相关 文档 的 索引 项 权重 向 量 和 相关 文档 的 向 量 相差 甚 远 。 主 要 的 想法 
是 重 构 查 询 使 得 它 更 靠近 向 量 空间 中 相关 文档 的 区 域 ， 远 离 不 相关 文档 的 区 域 。 在 此 之 前 ， 
让 我 们 先 对 处 理 某 个 给 定 查询 g 定义 术语 ， 如 下 所 示 : 


[180] 
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: 检 出 的 文档 中 相关 文档 的 集合 ; 
: RE D, 内 文档 的 数量 ; 
: 检 出 的 文档 中 不 相关 文档 的 集合 ; 
: 集合 D, 内 文档 的 数量 ; 
: 整个 文档 集中 相关 文档 的 集合 ; 
: 整个 文档 集中 文档 的 数量 ; 

as Bs 7: 调整 参数 。 

首先 考虑 一 种 乐观 情况 ， 其 中 对 于 给 定 的 查询 9， 事 先 已 知 完整 的 相关 文档 集 C.。 在 这 
种 情况 下 ， 可 以 证 明 最 好 的 能 区 分 相关 文档 和 不 相关 文档 的 最 佳 查询 向 量 是 : 

Qop ToT 22. d, N- |G| Pe d; (5-1) 

其 中 |C,| 是 集合 C, MA, d, EXM d; 的 索引 项 权重 向 量 〈 见 第 3 章 ) Ja EAM a 的 
最 优化 索引 项 权重 向 量 ， 如 图 5-3a 所 示 。 这 个 式 子 的 问题 是 组 成 集合 C, 的 相关 文档 是 事先 
不 知道 的 。 
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a) b) 


5-3 Rocchio 反馈 过 程 a 在 已 知 完整 的 相关 反馈 信息 de = >) d,) 和 不 相 


关 反 馈 信息 Ty = Dd) d 的 前 提 下 ， 最 优 的 查询 表 式 ; b) Rocchio 查询 
dj ec, 
重 构 过 程 ， 其 中 初始 查询 全 被 转换 为 基于 检 出 文档 中 的 相关 文档 Tr = 2 
TO 和 不 相关 文档 〈 号 、 = 二 D dO 构成 的 改进 查询 子 。 
为 了 避免 这 一 问题 ， 自 然 的 做 法 是 构造 一 个 初始 查询 ， 逐 渐 改 变 这 个 最 初 的 查询 向 量 。 
这 个 增 量 式 的 改变 是 通过 把 计算 限制 在 根据 用 户 的 评价 ) 当时 已 知 的 相关 文档 上 。 有 三 种 
181] 相似 的 经 典 方法 计算 改进 查询 9 ， 如 下 所 示 : 





Standard_Rocchio: qm =a q + B ys d, 一 > d, (5-2) 
"vd;€D, "yd €D, 
Ide_Regular: qn =a q7 +B 了 >， a; 一 7 be d, (5-3) 


vå €D, vi €D, 
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Ide_Dec_Hi: Jn =aq+8 5 d, — y max_rank (D,) (5-4) 


yd, €D, 

其 中 maz_rank(D,) 是 指 排序 最 高 的 不 相关 文档 。 在 原始 表 式 中 ，Rocchio 固定 了 a= 
1[1375], Ide 固定 了 a 二 Bp 二 7 二 1[806]。 上 面 的 表 式 是 最 新 的 变 体 。 当 前 的 理解 是 这 三 项 技 
术 能 产生 出 类 似 的 结果 (在 过 去 ， 认 为 Ide Dec-Hi 略 好 一 点 ) 。 

Rocchio 表 式 基本 上 是 由 公式 5-1 直接 转化 过 来 的 ， 其 中 原始 查询 项 湛 加 了 进来 ， 如 
图 5-3b 所 示 。 其 动机 是 原始 查询 g 包含 了 重要 的 信息 ， 这 些 信 息 决 定 哪些 文档 是 相关 的 。 
此 外 ， 因为 包含 在 相关 文档 中 的 信息 比 不 相关 文档 中 的 信息 更 重要 [1414]， 常 数 y 应 该 比 
常数 8 小 。 另 一 种 方法 是 设置 7 为 0， 这 样 可 产生 一 个 正 (positive 反馈 策略 。 

上 述 相关 反馈 技术 的 主要 优点 是 既 简 单 又 可 以 得 到 好 的 结果 。 简 单 是 由 于 索引 项 权重 的 
修改 是 直接 从 相关 文档 集 计 算得 到 的 。 结 果 好 是 通过 实验 观察 得 到 的 ， 这 是 由 于 改进 的 查询 
向 量 反 映 了 一 部 分 查询 语义 。 


5.3.2 概率 模型 的 相关 反馈 
概率 模型 根据 概率 排序 原则 动态 地 对 查询 g 的 类 似 文档 进行 排序 。 由 3. 2.7 节 ， 我 们 可 
以 知道 文档 d; 和 查询 a 在 概率 模型 中 的 相似 度 可 以 表示 为 : 


| E P(k,|R) 1— Pk |R) 
sim(d;,q) = ,ee o8(7— pas TR) + Hoe P(k;|R) ) 


其 中 PC&; |R) 表示 在 相关 文档 集 R 中 观察 到 索引 项 k WER, P| 表示 在 不 相关 文档 集 
合 R 中 观察 到 索引 项 A, 的 概率 。 最 初 ， 不 能 使 用 式 (5-5)， 因 为 概率 P: |R 和 PC |R) 
是 未 知 的 。 第 3 章 已 经 讨论 了 许多 自动 估计 这 些 概率 的 方法 〈 即 在 没有 用 户 反 馈 的 情况 下 )。 
在 有 用 户 反馈 信息 的 情况 下 ， 这 些 概 率 是 以 一 种 略 有 不 同 的 方法 估计 的 。 

对 于 初始 搜索 〈 在 没有 检 出 文档 的 时 候 )， 通 常 做 出 的 假设 包括 : D PID 对 所 有 
的 索引 项 & 是 常数 上 典型 的 是 0.5); 2) 索引 项 概率 分 布 PCR:| 玉 ) 可 以 近似 为 整个 文档 集 
的 分 布 。 由 这 两 个 假设 可 得 : 


(5-5) 


Plk; |R) = 0.5 





PR, |R) = 十 
如 前 所 述 ，z 表示 文档 集中 包含 索引 项 ， ere 把 它 代 人 式 (5-5) 中 ， 可 以 得 到 : 
SİM miniai (dj; oQ) 一 5 log(~—*) 


kak; Cd; 


对 于 反馈 式 搜 索 ， 由 先前 检 出 的 相关 或 不 相关 文档 对 应 的 累积 统计 量 ， 用 来 估计 概率 
P(k;|R) MPC |R). Bik n BHA D, 中 包含 索引 项 k; 的 文档 数量 。 那 么 概率 PCR; |R) 
和 PCR; |R) 可 以 近似 为 : 


Pk; |R) = Ne 


N; Ani 


P(k;|R) = NON. 


使 用 这 些 近 似 ， 式 〈5-5) 可 以 重 写 为 : 
sim(dj,.@ = >) loe( 5 fni ) | log ( 


k EAk Ed, 


值得 注意 的 是 ， 这 里 与 向 量 空间 模型 不 同 ， 并 没有 对 查询 进行 扩展 。 而 是 对 相同 的 查询 





(5-6) 





N—N, — GM: te?) 


ni — Nei 





182 


183 
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项 使 用 了 由 用 户 提 供 的 反馈 信息 来 重新 调整 。 

ch (5-6) 会 出 现 这 样 的 问题 : 在 实际 中 经 常 出 现 一 些 数值 较 小 的 N, 和 ni CN, =1, 
nr 一 0)。 因 此 ， 通 常会 在 PC |R) MPIO 的 估计 式 中 添加 一 个 0. 5 的 调节 系数 ， 这 
样 可 以 得 到 : 
nn: +0.5 
N, +1 


5 ni — nN ni +00.5 
P(k;|R) = N- NFI 

这 种 相关 反馈 过 程 的 主要 优点 是 反馈 过 程 是 和 查询 项 新 权重 的 生成 直接 相关 。 缺 点 包括 ， 
D 在 反馈 循环 中 没有 考虑 文档 索引 项 权重 ;2) 忽略 了 之 前 的 查询 表 式 中 项 的 权重 ; 3) 没有 
使 用 查询 扩展 〈 原 始 查询 中 相同 一 组 项 被 一 次 次 重新 确定 权重 )。 由 于 这 些 缺 点 ， 概 率 相关 
反馈 方法 总 体 上 不 如 传统 的 向 量 修改 模型 有 效 。 

为 了 扩展 概率 模型 的 查询 扩展 能 力 ， 很 多 文献 中 提出 了 许多 不 同 的 方法 ， 包 括 查 询 扩展 
中 的 权重 计算 ， 以 及 基于 生成 树 的 索引 项 聚 类 方法 等 。 所 有 这 些 方法 都 把 概率 查询 扩展 区 别 
于 概率 查询 项 青 赋 权 。 尽 管 我 们 在 这 里 不 讨论 ,但 在 5. 8 节 中 介绍 了 对 这 个 问题 进行 研究 的 
fay SE 


5.3.3 相关 反馈 的 评价 


考虑 由 Rocchio 式 生成 了 改进 的 查询 向 量 9,;， 假 设 我 们 需要 评估 它 的 检索 质量 。 一 个 
简单 的 方法 是 用 了 检 出 一 个 文档 集 ， 用 向 量 公式 对 它们 排序 ， 由 专家 来 度量 相对 于 原始 查 
询 向 量 了 的 相关 文档 集 的 召回 率 -精度 值 。 通 常 ， 这 个 结果 显示 了 巨大 的 提升 。 不 幸 的 是 ， 
其 中 很 大 一 部 分 提升 是 源 自 在 反馈 的 过 程 中 已 经 标 为 相关 文档 的 排名 被 进一步 提升 了 
[582]。 由 于 用 户 已 经 见 过 这 些 文档 (并 指出 它们 是 相关 的 )， 因 此 这 样 的 评价 是 不 真实 的 。 
而 且 ， 由 于 有 些 文档 用 户 没 有 见 到 ， 这 就 掩盖 了 检索 质量 的 真实 提高 。 

一 个 更 实际 的 方法 是 仅 在 剩余 文档 集 (residual collection) 上 评价 改进 的 查询 向 量 了 ,， 
即 所 有 文档 集 减 去 由 用 户 提供 的 反馈 文档 集 。 因 为 那些 排名 靠 前 的 文档 已 经 从 文档 集中 删 去 
了 ， 所 以 了 ,。 的 召回 率 -精度 要 比 原始 的 查询 向 量 9 低 。 这 不 是 一 个 缺点 ， 因 为 主要 目的 是 比 
较 不 同 的 相关 反馈 策略 的 质量 (而 不 是 比较 反馈 前 后 的 质量 )。 因 此 ,一 个 基本 的 经 验 法 则 
是 ， 任 何 包含 了 相关 反馈 策略 的 实验 应 该 总 是 计算 相对 于 剩余 文档 集 的 召回 率 -精度 。 


5.4 基于 点 击 的 显 式 反馈 


Web 搜索 引 警 用 户 不 仅 观察 查询 的 答案 ,而 且 还 要 点 击 它们 。 这 些 点 击 ， 反 映 了 他 们 
对 于 给 定 查询 特定 答案 的 偏好 ， 可 以 在 不 干扰 用 户 的 情况 下 大 量 收集 。 人 们 自然 会 问 ， 它 们 
是 否 也 反映 了 管 案 的 相关 性 评价 ， 即 点 击 数据 是 否 能 用 来 判断 未 来 查询 的 相关 性 。 在 一 定 的 
条 件 下 ， 答 案 是 肯定 的 。 本 节 基 于 文献 [845，1320] 讨论 这 个 问题 。 


P(e; |R) 一 





(5-7) 


5.4.1 眼 动 追 踪 和 相关 性 评价 


点 击 数据 提供 了 有 限 的 用 户 行为 信息 。 一 种 补充 用 户 行为 信息 的 方法 是 用 眼 动 追踪 
(eye tracking) 设备 。 

1. 眼 动 追踪 

使 用 商业 设备 可 以 追踪 用 户 目 光 的 位 置 ， 这 些 设 备 采 用 了 基于 瞳孔 中 心 和 角膜 反射 等 方 
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法 来 确定 用 户 聚 焦 在 屏幕 的 哪个 区 域 。 这 个 方法 尽管 在 一 些 实例 中 有 错误 ， 但 仍 可 以 以 
60% 一 90% 的 正确 率 探测 到 用 户 在 屏幕 中 关注 的 区 域 ， 并 且 可 以 确定 何 时 这 个 方法 无 效 。 

遵照 RaynerL1339]， 眼 球 运动 可 以 分 为 四 个 基本 行为 类 型 : 凝视 (fixation)、 扫 视 
(saccade), 、 瞳 孔 扩 张 (pupil dilation) 和 扫 视 顺序 (scan path)。 凝 视 是 盯 着 屏幕 特定 区 域 
持续 200 一 300 BH, 这 上段 时 间 长 到 足以 让 大 脑 有 效 地 捕获 和 翻译 显示 的 图 像 。 也 就 是 说 ， 
凝视 通常 代表 与 视觉 信息 获取 和 处 理 相关 的 视觉 活动 ， 对 于 解释 用 户 行为 是 很 重要 的 。 扫 视 
是 在 凝视 点 间 持 续 40 一 50 毫秒 的 快速 目光 运动 ， 因 为 太 短 而 不 能 有 效 获 取信 息 。 瞳 和 孔 扩 张 ， 
是 表示 感 兴趣 ， 与 解释 用 户 行为 有 关 ， 这 里 不 讨论 。 这 里 也 不 讨论 扫 视 顺序 。 

本 节 后 面 报告 的 实验 结果 是 L845, 1320] 实验 的 重 现 ， 完 全 基于 凝视 。 尽 管 有 所 限制 ， 
但 它们 确实 提供 了 足够 的 信息 来 说 明 用 户 对 一 组 相对 于 用 户 查询 结果 的 解释 。 

2. 相关 性 评价 

为 了 评价 结果 的 质量 ， 眼 动 追踪 是 不 合适 的 。 正 如 在 第 4 章 中 讨论 的 ， 结 果 的 质量 评价 
需要 选择 一 组 测试 查询 ， 确 定 它们 的 相关 性 评价 。 我 们 如 果 要 评价 点 击 产生 的 质量 也 是 
如 此 。 

举例 来 说 ，[845] 中 的 研究 使 用 了 一 组 由 10 个 查询 组 成 的 测试 集 ， 其 中 5 个 是 浏览 型 
的 ， 即 找到 一 个 网 页 ;5 个 是 信息 型 的 ， 即 找到 关于 一 个 主题 的 信息 。 其 中 关于 浏览 型 的 例 
FÆ “find the homepage of Michael Jordan, the statistician” (R AAt z Michael Jor- 
dan 的 主页 )。 信 息 型 任务 的 例子 是 “find the location of the tallest mountain in New York” 
(找到 纽约 最 高 的 山 的 位 置 )。 为 了 编辑 点 击 数据 ， 需 要 雇用 真实 的 用 户 。 可 以 使 用 一 个 代理 
来 监视 并 管理 用 户 和 搜索 引擎 间 的 互动 ， 这 样 可 以 不 影响 用 户 的 体验 。 

用 户 浏览 的 每 一 个 页 面 和 结果 集 由 独立 的 评估 员 评 价 相 关 性 。 对 于 给 定 查询 以 及 与 这 个 
查询 相关 的 前 10 个 结果 ， 评 估 员 需要 对 这 10 个 结果 确定 一 个 严格 的 排序 。 设 ri 表示 第 i 个 
结果 。 如 果 检 索 结 果 的 偏 序 中 xr; 在 r 的 前 面 出 现 ， 评估 员 就 认为 rs E r 更 可 能 产生 和 查 
询 相 关 的 信息 。 为 了 减少 噪声 和 错误 评价 的 影响 ， 每 个 查询 应 该 由 至 少 两 个 评估 员 评 价 。 当 
这 两 个 评估 员 对 一 对 结果 的 相关 性 偏好 一 致 时 ， 就 产生 了 一 个 强 的 相关 性 评价 得 分 。 

由 评估 员 产 生 的 相关 性 评价 可 以 用 来 评价 用 户 点 击 的 文档 和 测试 查询 集中 每 个 查询 的 相 
关 性 。 


5.4.2 用 户 行 为 

在 [845] 报告 的 眼 动 追 踪 实 验 中 ,包含 了 29 个 测试 者 。 实 验 表 明 用 户 自 顶 向 下 扫 视 查 
询 结 果 ， 他 们 在 第 二 次 或 者 第 三 次 凝 
视 中 ， 检 查 排名 第 一 和 排名 第 二 的 结 
果 。 并 且 ， 他 们 趋 于 彻底 地 扫 视 前 5 
个 或 者 前 6 个 出 现在 屏幕 可 视 区 域 的 











4 
答案 ,之 后 滚动 检查 前 10 个 答案 中 Beats 





j EEE EA 


剩余 的 部 分 。 

图 5-4 显示 了 在 [845] 中 10 项 
测试 任务 和 29 个 测试 者 的 凝视 和 点 
击 的 百分比 。 我 们 注意 到 在 60% ~ 


70% 的 任务 中 ， 用 户 凝视 第 一 个 或 者 ”图 54 用 户 浏览 和 点 击 每 个 排名 靠 前 的 结果 的 比例 .该 
第 二 个 结果 。 对 第 四 个 结果 的 凝视 下 结果 是 从 [845] 中 重 现 的 
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[se] 降 到 了 一 半 。 对 于 页 面 的 底部 ， 只 能 通过 滚动 才能 检查 ， 凝 视 的 相对 频 度 低 于 10%。 结 果 


187 


也 表明 用 户 几乎 平等 地 观察 前 两 个 答案 ， 但 是 他 们 点 击 第 一 个 结果 的 频率 几乎 是 第 二 个 的 3 
倍 。 这 可 能 表明 了 用 户 对 搜索 引擎 的 偏好 ， 即 用 户 趋 于 信赖 搜索 引擎 推荐 的 第 一 个 结果 。 

这 个 现象 还 可 以 通过 额外 的 实验 来 更 好 地 解释 ， 其 中 对 测试 者 给 定 两 个 不 同 的 结果 集 : 
D 由 搜索 引擎 返回 的 正常 排序 ，2) 一 个 修改 过 的 排序 ， 其 中 前 两 个 结果 的 位 置 对 换 了 。 通 
过 代理 使 得 这 些 修改 对 用 户 是 不 可 见 的 ， 这 样 测 试 者 不 知道 他 看 到 的 是 正常 的 还 是 修改 过 的 
HEF. Æ [845] 中 的 结果 分 析 表 明 用 户 在 搜索 引擎 中 表现 出 信赖 偏好 (trust bias), BRK 
第 一 个 结果 ， 即 使 当前 两 个 结果 被 调换 了 ， 用 户 点 击 第 一 个 位 置 的 频率 相 比 于 第 二 个 位 置 多 
出 3 倍 。 也 就 是 说 ， 结 果 的 位 置 对 用 户 决定 是 否 点 击 它们 有 很 大 的 影响 。 


5.4.3 点 击 作为 用 户 偏好 的 指标 
通过 上 述 的 讨论 ， 我 们 可 以 看 到 把 点 击 解 释 为 相关 性 的 直接 指示 不 是 最 好 的 方法 。 更 好 


的 是 把 点 击 解释 为 用 户 偏好 的 指标 。 举 例 来 说 ， 如 果 用 户 查看 了 结果 的 片断 ， 即 在 每 一 个 搜 


索引 擎 下 面 显 示 的 文本 短 摘 要 之 后 ， 用 户 决 定 要 跳 过 它 并 点 击 在 排序 中 低 于 它 的 结果 ， 就 可 
以 说 相 比 于 排序 中 上 面 的 结果 ， 这 个 用 户 更 喜欢 这 个 被 点 击 的 结果 。 这 种 类 型 的 偏好 关系 不 
仅 要 考虑 用 户 的 点 击 结果 ， 也 要 考虑 观察 到 、 但 没有 被 点 击 的 结果 。 

1. 在 相同 查询 内 的 点 击 

为 了 把 点 击 解释 为 用 户 的 偏好 ， 我 们 采用 如 下 的 定义 。 

定义 ”给 定 一 个 排序 函数 尼 (g;,，d;)， 设 ri 是 第 个 排序 结果 。 也 就 是 说 ,ri、r2、rs 
分 别 表 示 第 一 、 第 二 和 第 三 个 结果 。 并 且 ， 设 “rs” 表示 用 户 点 击 了 第 上 个 结果 。 定 义 偏 
好 济 数 “7h>ri_,”，0 瑟 k 一 n<R， 这 表示 根据 用 户 的 点 击 行为 ， 相 比 于 第 (一 n) 篇 文档 ， 
用 户 更 倾向 于 第 上 篇 文档 。 

举例 来 说 ， 假 设 如 下 的 关于 用 户 对 一 组 查询 结果 的 点 击 行为 的 例子 : 

ri ry N r3 rs J rs re rr rs ro V rio 

AP AHS rs、rs 和 mo 的 结果 ， 但 这 不 能 让 我 们 做 出 它们 和 查询 之 间 明 确 的 相关 性 。 但 是 ， 
它 让 我 们 得 出 这 个 用 户 相对 的 偏好 。 为 了 捕获 这 个 例子 中 的 偏好 关系 ， 在 [845] 中 提出 了 
两 种 不 同 的 方法 ， 如 下 所 示 。 

。 跳 过 上 面 (Skip-Above): 如 果 Vr， 那 么 对 于 所 有 没有 点 击 到 的 ri. renin 

。 跳 过 之 前 〈Skip-Previous) : MRJ/n, WE n RAAS, IMA rnr- 

第 一 个 策略 假定 用 户 喜 欢 点 击 到 的 结果 胜 过 所 有 没有 点 击 到 但 排 在 前 面 的 其 他 结果 。 根 
据 这 种 策略 ， 在 上 述 例子 中 根据 用 户 在 关上 的 点 击 产生 如 下 的 偏好 ， 

ry > ras n>n 

第 二 个 策略 假设 用 户 喜 欢 点 击 到 的 结果 胜 过 排 在 它 前 一 位 并 且 没 有 点 到 的 结果 。 根 据 这 

个 策略 ， 在 上 述 例子 中 根据 用 户 在 r; 上 的 点 击 产生 如 下 的 偏好 : 
ry >r 

注意 跳 过 上 面 策略 相 比 于 跳 过 之 前 策略 产生 了 更 多 的 偏好 关系 。 | 

根据 [845] 中 报告 的 10 个 测试 查询 的 经 验 结果 ， 可 以 获得 如 下 的 结论 : 

。 跳 过 上 面 和 中 过 之 前 策略 都 能 产生 大 约 80% 与 评估 员 相 一 致 的 相关 性 偏好 关系 。 

。 如 果 我 们 在 呈现 给 用 户 前 交换 第 一 个 和 第 二 个 结果 ， 那 么 它们 的 点 击 仍然 反映 了 与 

KA 80% 的 评估 员 的 相关 性 评价 相 易 合 的 偏好 关系 。 
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。 如 果 我 们 在 呈现 给 用 户 前 颠倒 前 10 篇 结果 的 顺序 ， 那 么 对 于 这 两 种 策略 ， 它 们 的 点 
击 仍然 反映 了 与 大 约 80% 的 评估 员 的 相关 性 评价 相 吻 合 的 偏好 关系 。 
这 些 结果 提供 了 坚实 的 证 据 ， 表 明 用 户 的 点 击 不 仅 可 用 来 表示 个 性 化 偏好 ， 而 且 可 用 来 
表示 给 定 查询 结果 的 相对 相关 性 。 
2. 查询 链 的 点 击 
上 述 的 讨论 限制 在 单一 查询 的 情况 下 。 然 而 ， 在 实际 应 用 中 ,用户 对 同一 个 任务 搜索 答 


案 时 会 提出 不 止 一 个 查询 。 与 同一 个 任务 对 应 的 查询 集 可 以 看 做 是 实时 的 查询 流 ， 并 构成 所 


谓 的 查询 链 。 在 查询 链 中 分 析 点 击 的 目的 是 产生 新 的 偏好 关系 ， 从 而 对 那些 在 同一 个 查询 中 
产生 的 偏好 关系 进行 补充 。 
举例 来 说 ， 假 设 同一 个 查询 链 的 两 个 结果 可 以 导致 如 下 的 点 击 行为 ， 
5) Ms 5 
HEF r 表示 在 第 一 个 结果 集中 的 答案 ，Y 表示 第 二 个 结果 集中 的 答案 ，、/ ss 表示 第 二 个 结 
果 集 中 第 & 个 答案 被 点 击 了 。 在 这 种 情况 下 ， 用 户 没有 点 击 第 一 个 结果 集中 的 答案 ， 而 是 点 
击 了 第 二 个 结果 集 的 第 二 个 和 第 五 个 答案 。 
在 [845] 中 ， 推 荐 了 两 个 不 同 的 捕获 偏好 关系 的 策略 ， 如 下 所 示 。 
。 Top-One-No-Click-Earlier， 如 果 3 了 sx |、/s%， 那 么 对 所 有 的 j 委 10， 有 mm 。 
。 Top-Two-No-Click-Earlier: 如 果 Fsi | Vs WAWEKA 7<10, As, >n E 
5 人 72z 0 
第 一 个 策略 假设 用 户 跳 过 第 一 个 结果 集 的 所 有 10 个 答案 ， 而 去 点 击 第 二 个 结果 集 ， 说 
明 这 个 用 户 喜 欢 第 二 个 集合 中 任何 一 个 答案 胜 过 第 一 个 结果 集中 的 第 一 个 答案 。 根 据 这 样 的 
策略 ， 由 用 户 在 上 面 例子 的 结果 s 上 的 点 击 产生 了 如 下 的 偏好 关系 : 
Ss N; RBN; 4N; >N; 
第 二 个 策略 假设 用 户 跳 过 了 第 一 个 结果 集 的 所 有 10 个 答案 ， 而 去 点 击 第 二 个 结果 集 ， 
说 明 用 户 喜 欢 第 二 个 集合 中 任何 一 个 答案 胜 过 第 一 个 结果 集中 的 前 两 个 答案 。 根 据 这 样 的 策 
略 ， 由 用 户 在 上 面 例 子 的 结果 y 上 的 点 击 产生 了 如 下 的 偏好 关系 : 
>n; >N; RNI >N; >r; 
S > 123 Sp >r; O> MN; S >r; 
我 们 注意 到 ，Top-Two-No-Click-Earlier 策略 产生 了 两 信 于 Top-One-No-Click-Earlier 
策略 的 偏好 关系 。 . 
为 了 验证 这 些 偏好 关系 的 有 效 性 ， 我 们 把 它们 和 评估 员 的 相关 性 评价 结果 进行 比较 。 根 
据 C845] 中 报告 的 结果 ， 对 于 一 组 10 个 测试 查询 ， 可 以 获得 如 下 的 结论 : 
。 Top-One-No-Click-Earlier 和 Top-Two-No-Click-Earlier 策略 产生 了 与 大 约 80% 的 评 
估 员 的 相关 性 结果 相 一 致 的 偏好 关系 。 
。 即使 在 呈现 给 用 户 前 ,我 们 调换 第 一 个 和 第 二 个 结果 ， 仍然 可 以 观察 到 类 似 的 一 
致 性 。 
。 即使 在 呈现 给 用 户 前 ， 我 们 颠倒 结果 的 排序 ， 仍 然 可 以 观察 到 类 似 的 一 致 性 。 
这 些 结果 表明 用 户 不 仅 〈 通 过 不 点 击 ) 提供 了 对 整个 结果 的 负面 反馈 信息 ， 也 从 这 个 过 
程 中 学 习 ， 并 在 接 下 来 的 步骤 中 重 构 更 好 的 查询 。 
考虑 到 用 户 的 点 击 经 常 反映 出 与 评估 员 的 相关 性 评价 结果 相 一 致 的 偏好 关系 ， 人 们 可 以 
考虑 使 用 点 击 信息 来 提高 排序 ， 正 如 我 们 将 在 11.5.4 节 排 序 学 习 中 讨论 的 那样 。 
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5.5 通过 局 部 分 析 的 隐 式 反馈 


在 局 部 反馈 策略 中 ， 在 查询 阶段 ， 根 据 给 定 查询 q 所 检 出 的 文档 来 决定 用 于 查询 扩展 的 
索引 项 ， 如 图 5-2a 所 示 。 这 类 似 于 相关 反馈 循环 ， 但 却 是 在 没有 用 户 协助 的 情况 下 完成 的 。 
这 里 讨论 两 个 局 部 策略 :局 部 聚 类 和 局 部 上 下 文 分 析 。 前 者 是 基于 Attar 和 Fraenkel[78] 
的 早期 工作 ， 用 于 建立 查询 扩展 应 用 聚 类 技术 的 许多 基础 性 想法 和 概念 。 后 者 是 Xu 和 
Croft[1732] 的 工作 ， 显 示 了 同时 结合 局 部 和 全 局 分 析 的 优点 。 


5.5.1 通过 局 部 聚 类 的 隐 式 反馈 


查询 扩展 中 使 用 的 聚 类 技术 从 早期 开始 就 是 信息 检索 中 的 一 项 基本 方法 。 其 标准 的 过 程 
是 建立 类 似 于 关联 矩阵 那样 的 全 局 结构 ， 量 化 索引 项 之 间 的 相互 关系 ， 然 后 把 相互 关联 的 索 
引 项 用 于 查询 扩展 中 。 主 要 的 问题 是 对 于 一 般 文档 集 ， 全 局 结构 并 不 总 是 能 有 效 地 提高 检索 
质量 。 一 个 主要 的 原因 是 全 局 结构 可 能 不 能 很 好 地 适应 由 当前 查询 定义 的 局 部 上 下 文 。 为 了 
解决 这 个 问题 ， 可 以 使 用 局 部 聚 类 方法 。 我 们 的 讨论 基于 [78]. 

定义 ”对 于 给 定 的 查询 g， 检 出 文档 集 D 称 为 局 部 文档 集 。 设 Ni AD, 中 文档 的 数量 。 
而 且 ， 在 局 部 文档 集中 所 有 不 同 的 索引 项 组 成 的 集合 Vi 称 为 局 部 词汇 表 。 索 引 项 有 在 文档 
d;, d;ED, 中 出 现 的 频 度 是 fijo it MI 一 [mi 是 一 个 项 -文档 矩阵 ，W 行 N 列 ， 其 中 
Mij = fijo 考虑 到 MI 是 MM 的 转 置 ,矩阵 C=MMI AH Me FHKE, 每 个 元 素 Cuv E 
C RAT RNR, 和。 之 间 的 关系 。 

局 部 项 闻 相 关 性 和 矩阵 C:,， 类 似 于 在 第 3 章 中 在 整个 文档 集 上 定义 的 项 间 相 关 性 矩阵 。 
这 里 它 基 于 查询 9 返回 的 文档 内 索引 项 的 共 现 ， 来 建立 两 个 项 & Mk, 之 间 的 关系 。 这 两 个 
项 共 现 的 文档 数量 越 高 ， 相 关 性 就 越 强 。 

为 了 利用 类 似 于 项 间距 离 这 种 因素 的 优点 ， 相 关 性 强度 可 以 用 不 同 的 方式 定义 。 当 已 经 
计算 了 所 有 的 相关 性 强度 时 ， 它们 可 用 于 计算 邻近 索引 项 组 成 的 局 部 艇 。 在 同一 个 艇 中 的 索 
引 项 可 以 用 来 做 查询 扩展 。 我 们 这 里 考虑 三 种 簇 : 关联 艇 (association cluster), E H 
(metric cluster) 和 标量 得 (scalar cluster). 

1. KKK 

定义 -*+KRRABNERFAELAEKINAH k, fok, 之 间 的 相关 因子 cues MAA 
部 相关 性 矩阵 Cl 中 计算 的 ， 如 下 所 示 : 

Cuv = Dy fui X foi (5-8) 


ad,€D, 
在 这 种 情况 下 ， 相 关 性 矩阵 (correlation matrix) #% 4 Æ 38 X W 4 f (local association 
matrix), 

其 潜在 的 动机 是 在 文档 中 经 常 共 现 的 索引 项 有 同 义 关系 。 而 且 ， 式 (5-8) 简单 ， 容 
易 掌 握 ， 且 相当 直接 。 相 关 因 子 c,, 量 化 了 共 现 的 绝对 频 度 ， 可 以 称 为 是 非 归 一 化 的 。 因 
此 ， 相 关 性 矩阵 C' 也 称 为 是 非 归 一 化 的 。 另 外 一 种 方法 是 对 相关 性 和 矩阵 进行 归 一 化 。 举 
例 来 说 ， 


c — Cuv 
Uv 
Casu F Coy — Cuv 


在 这 个 例子 中 ， 相 关 性 矩阵 C 称 为 是 归 一 化 的 。 
给 定 一 个 局 部 相关 性 矩阵 C:， 我 们 能 利用 它 按 如 下 方式 构建 局 部 关联 艇 。 
定义 ECan) 是 一 个 从 局 部 相关 性 给 阵 C, 中 返回 最 大 的 n 个 相关 因子 cs, 的 函数 ， 


(5-9) 
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其 中 遍历 局 部 索引 项 集合 ， 且 vtu, 2#, Can) 定义 了 局 部 关联 著 ， 即 围绕 索引 项 k, 
的 一 个 邻 域 。 如 果 ci 是 由 式 (5-8) 给 定 的 ， 关联 繁 称 为 是 非 归 一 化 的 。 如 果 css 是 由 式 
(5-9) 给 定 ， 则 关联 比 称 为 是 归 一 化 的 。 

给 定 查询 ag， 我 们 通常 只 感 兴 趣 于 找到 |4a| 个 查询 项 的 关联 徐 。 而且， 希望 能 保持 关联 
艇 的 规模 小 。 这 意味 着 ， 如 果 能 维护 合适 的 索引 结构 ， 那 么 在 提交 查询 时 能 有 效 地 计算 这 样 
HK) RR o- 

2. ERE 

关联 化 是 基于 文档 中 索引 项 的 共 现 ， 不 考虑 项 出 现在 文档 中 的 位 置 。 由 于 出 现在 同一 句 
子 中 的 两 个 索引 项 比 散 落 在 文档 中 的 两 个 项 联系 得 更 紧密 ， 因 此 可 能 值得 把 两 个 索引 项 的 距 
离 因 素 考 虑 在 相互 关系 的 计算 中 。 上 度量 艇 就 是 基于 这 样 的 想法 。 

定义 ”度量 炙 是 从 局 部 相关 和 佐 阵 Ci 中 计算 得 来 ， 把 任意 一 对 索引 项 & fk, 之 间 的 相关 
因子 c,。 重 新 定义 为 它们 在 文档 中 距离 的 函数 。 假 设 k,(n，j) 是 一 个 返回 了 索引 项 在 文 
wd, 中 的 第 n KERHA., MH, Wtr. n, j), km, j)) 是 表示 在 文档 d; 中 索引 
Hk, 的 第 nn 次 出 现 和 索引 项 ,的 第 m 次 出 现 的 距离 的 函数 。 这 个 距离 可 以 通过 两 个 共 现 的 
索引 项 间 词 的 个 数 来 计算 。 定 义 : 


(5-10) 


Cuv = 


1 
ppp rk, (nsj) +k, Cms7)) 
在 这 个 例子 中 ， 相 关 性 矩阵 称 为 局 部 度量 矩阵 。 

注意 如 果 Mk. 出 现在 不 同 的 文档 中 ， 我 们 把 它们 的 距离 定 为 无 穷 大 。 已 有 文献 给 出 
TER c,, 表 达 式 的 变 体 ， 例 如 1/r? Ck, 7))， km, 7))。 

度量 相关 因子 c., 量 化 了 绝对 反比 距离 ， 称 为 是 非 归 一 化 的 。 这 样 ， 局 部 度量 矩阵 Ci 称 
为 是 非 归 一 化 的 。 另 外 一 种 方法 是 归 一 化 相关 因子 。 例 如 ， 


t 
Cu 


(5-11) 





Cure 

o kok] 对 的 总 数 
在 这 个 例子 中 ， 局 部 度量 矩阵 C 称 为 是 归 一 化 的 。 

给 定 一 个 局 部 度量 矩阵 C,， 我 们 能 利用 它 按照 如 下 的 方法 建立 局 部 度量 簇 。 

-定义 RRC Cn) 是 一 个 函数 ， 返 回 局 部 度量 矩阵 Cl Pin HK c,h, vAu. A 
As CM 定义 了 围绕 着 索引 项 的 一 个 局 部 度量 答 。 如 果 cu 是 由 式 (5-10) 定义 的 ， 那 
么 度量 著称 为 是 非 归 一 化 的 。 如 果 cu。 是 由 式 (5-11) 定义 的 ， 那 么 度量 徐 称 为 是 归 一 化 的 。 

3. RRR 

另 一 种 导出 两 个 局 部 索引 项 & Mk, 同 义 关 系 的 方法 是 比较 集合 C.(Cz) MACH), We 
较 两 个 项 的 邻 域 。 其 想法 是 两 个 有 着 类 似 邻 域 (neighborhood) 的 项 有 着 同 义 关 系 。 在 这 种 
情况 下 我 们 说 这 种 关系 是 间接 的 ， 或 是 由 邻 域 导出 的 。 一 种 量化 邻 域 关 系 的 方法 是 把 索引 项 
k, 中 所 有 的 相关 因子 c.- 转 化 为 一 个 向 量 闷 ， 索 引 项 久 中 所 有 的 相关 因子 c., 转 化 为 另 一 个 向 
量 闷 ， 通 过 标量 比较 这 两 个 向 量 。 一 种 常见 的 标量 相似 度 测 度 是 两 个 向 量 之 间 的 夹 角 余 弦 。 

定义 ”假设 部 一 (cs Case o Can)» e= lny + Coys o Cory) DAE k Pk, 
的 邻 域 相关 因子 组 成 的 向 量 。 定 义 : 


> > 
Su 


Ce = oe eS (5-12) 
| Sa |X | Sy 
:在 这 个 例子 中 ， 相 关 性 矩阵 Ci 是 局 部 标量 矩阵 。 
局 部 标量 矩阵 C 称 为 从 邻 域 中 导出 的 。 使 用 它 ， 可 以 定义 如 下 的 标量 簇 。 
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EX BEREC) 是 一 个 函数 ， 返 回 局 部 标量 矩阵 Ci 中 前 nn 个 大 的 cw 值 ，v 了 WU， Cyr 
的 值 是 根据 式 (5-12) ELH. MA, Cn) 定义 了 围绕 着 索引 项 率 , 的 一 个 标量 繁 。 

4. 基于 邻居 项 的 查询 扩展 

与 查询 项 关联 的 得 中 的 索引 项 可 以 用 于 扩展 原始 查询 。 这 样 的 项 称 为 查询 项 的 邻居 ， 可 
以 按 如 下 方式 描述 。 

ATC 的 索引 项 ke 和 索引 项 k, 关联 ， 这 个 项 称 为 是 的 邻居 。 有 时 候 &, 也 
BRA k, 的 搜索 同 义 项 〈searchonym) ， 这 里 我 们 使 用 术语 邻居 (neighbor)。 尽 管 邻居 项 被 
认为 有 同 义 关 系 ， 但 它们 不 一 定 在 语法 上 有 同 义 关 系 。 通 常 ， 邻 居 项 代表 了 当前 查询 背 
景 下 相互 关联 的 不 同 关 键 词 。 相 关 性 矩阵 中 的 文档 和 索引 项 的 局 部 性 反映 了 这 种 相互 关 
系 的 局 部 性 。 从 广义 上 说 ， 由 于 它们 能 用 来 扩展 搜索 表 式 ， 因 此 ， 尽 管 在 查询 表 式 中 没 
有 明确 表达 ， 但 它们 仍 朝 着 用 户 希 望 的 方向 发 展 ， 说 明了 邻居 项 是 局 部 聚 类 过 程 的 重要 
产 出 。 

考虑 用 邻居 项 来 扩展 一 个 给 定 的 用 户 查 询 g。 一 种 可 能 性 是 按照 如 下 的 方式 扩展 查询 。 
对 于 每 个 项 有.Eq， 从 入 C,(n) 〈 可 以 是 关联 、 度 量 ， 或 者 标量 艇 ) 中 选择 m 个 邻居 项 ， 把 
它们 添加 到 查询 中 。 可 以 用 如 下 的 方式 表达 : 

dm =q U {k,lk, € Cn),k, E q? 
希望 其 他 的 邻居 项 &, 可 以 检索 出 新 的 相关 文档 。 为 了 涵盖 一 个 更 广阔 的 邻 域 ， 集合 C, (a) 
可 能 是 使 用 归 一 化 和 非 妇 一 化 的 相关 因子 获得 的 查询 项 。 定 性 的 解释 是 非 归 一 化 簇 倾向 于 把 
出 现 频率 高 的 项 聚 在 一 起 ， 而 归 一 化 艇 倾向 于 把 更 稀少 的 项 聚 在 一 起 。 这 样 ， 两 个 簇 的 并 集 
提供 了 一 个 可 能 更 好 的 相互 关系 表示 。 

查询 扩展 是 重要 的 ， 因 为 能 检 出 更 多 的 文档 ， 有 可 能 提高 召回 率 。 然 而 ， 要 排序 的 文档 
更 多 也 意味 着 精度 更 低 ， 即 新 检 出 的 不 相关 文档 会 有 高 的 排序 。 因 此 ， 需 要 小 心 使 用 查询 扩 
展 ， 并 根据 手头 的 文档 集 进行 精心 的 调整 。 


5.5.2 通过 局 部 上 下 文 分 析 的 隐 式 反馈 


上 面 讨论 的 局 部 聚 类 技术 是 基于 原始 查询 的 检 出 文档 集 ， 从 排序 靠 前 的 文档 中 聚合 出 邻 
居 项 。 另 外 一 种 方法 是 在 整个 文档 集中 搜索 查询 项 的 相关 性 一 一 称 为 全 局 分 析 的 方法 
(global analysis) 。 全 局 技术 通常 是 构建 一 个 同义词 典 来 包含 整个 文档 集中 索引 项 的 相互 关 
系 。 这 些 项 看 做 是 概念 ， 同 义 词典 看 做 是 概念 关系 结构 。 

同义词 典 构建 代价 昂贵 ， 除 了 提供 对 查询 扩展 的 支持 外 ， 作 为 浏览 工具 也 是 有 用 的 。 同 
义 词典 的 构建 通常 考虑 使 用 小 的 上 下 文 和 短语 结构 ， 而 不 是 简单 地 采用 由 整 篇 文档 提供 的 上 
下 文 。 而 且 ， 使 用 全 局 分 析 的 现代 变 体 ， 选 择 整个 查询 “而 不 是 单个 查询 项 ) 最 接近 的 项 用 





, 于 查询 扩展 。 本 节 的 主题 是 把 全 局 分 析 的 想法 (例如 小 的 上 下 文 和 短语 结构 ) 用 于 检 出 的 局 


部 文档 。 

局 部 上 下 文 分 析 [1732]， 是 一 种 结合 了 全 局 分 析 和 局 部 分 析 的 方法 ， 基 于 名 词组 的 使 
用 ， 即 单一 的 台词、 相 邻 的 两 个 名 词 ， 或 者 文本 中 相 邻 的 三 个 名 词 ， 而 不 是 简单 的 关键 词 。 
从 排名 靠 前 的 文档 中 选 出 的 名 词组 是 文档 中 可 用 于 查询 扩展 的 概念 。 该 方法 使 用 段落 ， 即 一 
个 固定 的 文本 窗口 ， 而 不 是 文档 来 决定 索引 项 的 共 现 。 

更 具体 地 说 ， 局 部 上 下 文 分 析 过 程 包含 了 三 步 。 

。 第 一 步 ， 使 用 原始 查询 检 出 前 = 个 段落 。 这 是 通过 把 查询 初始 检 出 的 文档 分 为 固定 

长 度 的 段落 〈 比 如，300 个 词 )， 把 这 些 段 落 按 文档 的 方式 排序 。 
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。 第 二 步 ， 对 于 每 一 个 排名 靠 前 的 段落 中 的 概念 <( 即 ， 名 词组 )， 使 用 TF-IDF 排序 的 
变 体 计算 整个 查询 9( 而 不 是 单个 的 查询 项 ) 和 概念 c 的 相似 度 sim (gag，c) 。 
。 第 三 步 ， 根 据 sim, c) 排序 的 前 m 个 概念 被 加 入 到 原始 查询 g 中 。 对 于 每 个 添加 
的 概念 ， 赋 予 一 个 权重 1 一 0.9Xi/m， 其 中 i 是 概念 的 排名 。 在 原始 查询 中 的 项 可 
以 通过 对 每 个 项 赋予 权重 2 来 加 强 。 
这 三 步 中 ， 第 二 步 是 最 复杂 的 ， 我 们 现在 来 讨论 一 下 。 每 个 概念 c 和 原始 查询 g 之 间 的 
相似 度 sim(q, c) 按照 如 下 方式 计算 。 
sim{qsc) = I (è+ 


hEq 


其 中 是 要 考察 的 排名 靠 前 的 段落 的 数量 。 肾 数 SC ki) 量化 了 概念 “ 和 查询 项 有 的 相关 
性 ， 如 下 所 示 。 


(5-13) 





log( flc,k;) X IDF.) ) 
logn 


flcski) = Per, X Pf ei 


其 中 pf RAM CA] 个 段落 中 的 频 AE, Pf ERS ER] 个 段落 中 的 频 度 。 .注意 
这 是 为 关联 簇 定义 的 标准 相关 因子 ， 参 见 式 (5-8)， 但 是 迁移 到 了 段落 上 。 反 比 文档 频率 系 
数 可 以 计算 为 : 


IDF; = max(1, 


IDF, = max( 1,1980 Nme) 


其 中 N 是 段落 的 数量 ，z 是 包含 查询 项 的 段落 数量 ，zzp. 是 包含 了 概念 c 的 段落 数量 。 
A 〈5-13) 中 的 系数 8 是 一 个 常数 ， 用 来 避免 在 乘积 运算 中 引入 值 为 零 的 系数 。 通 常 8 的 [94] 
值 接近 0. 1( 最 大 值 1 的 10%)。 最 后 ， 在 指数 中 的 IDF, 的 参数 是 用 来 加 强 查询 项 的 频 
度 的 。 
上 述 计算 sim(q，c) 的 过 程 是 一 个 TF-IDF 排序 公式 的 变 体 。 并且 ， 它 已 经 为 TREC 数 
据 做 了 调整 ， 在 其 他 文档 集 上 不 是 那么 有 效 。 因 此 ， 有 一 点 很 重要 ， 需 要 记 住 ， 即 不 同 的 文 
档 集 可 能 需要 调整 参数 。 我 们 也 注意 到 在 局 部 上 下 文 分 析 中 使 用 到 的 相关 性 测度 是 关联 型 
的 。 然 而， 我 们 已 经 知道 度量 型 的 相关 性 测度 是 更 有 效 的 。 因 此 ， 剩 下 来 的 就 是 为 孙 数 
fc, kd 测试 度量 型 相关 因子 是 否 能 在 局 部 上 下 文 分 析 中 有 所 区 别 。 


56 通过 全 局 分 析 的 隐 式 反馈 


上 面 讨论 的 局 部 分 析 方 法 从 局 部 检 出 的 文档 中 抽取 信息 来 扩展 查询 。 大 家 普遍 认为 ， 对 
于 不 同 的 文档 集 ， 一旦 精细 地 调整 过 ， 那 么 局 部 分 析 就 能 产生 更 好 的 检索 质量 。 另 一 种 方法 
是 使 用 从 整个 文档 集中 的 信息 来 扩展 查询 。 基 于 这 个 想法 的 策略 称 为 全 局 分 析 过 程 。 

接 下 来 ， 我 们 讨论 两 个 全 局 分 析 的 现代 变 体 。 两 者 都 是 基于 类 似 于 同义词 典 结构 建立 起 
来 的 ， 使 用 了 文档 集中 的 所 有 文档 。 然 而 ， 用 来 构建 同义词 典 的 方法 和 为 查询 扩展 选择 索引 
项 的 过 程 在 这 两 种 情况 中 都 是 不 同 的 。 


Logie N/m.) ) 
5 


5.6.1 基于 相似 度 同 义 词典 的 查询 扩展 


本 节 中 ， 我 们 讨论 一 种 基于 自动 构建 的 全 局 相似 度 同义词 典 的 查询 扩展 方法 [1309]。 
相似 度 同 义 词 典 是 基于 索引 项 间 的 关系 ， 而 不 是 共 现 和 矩阵 。 在 下 面 的 讨论 中 将 区 分 清楚 。 此 
外 ， 要 特别 关注 用 于 扩展 的 索引 项 的 选择 ， 和 对 这 些 项 权重 的 再 赋 权 。 与 之 前 的 全 局 分 析 方 
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法 不 同 ， 用 于 扩展 的 索引 项 是 基于 它们 和 整个 查询 的 相似 度 进行 挑选 的 ， 而 不 是 基于 它们 和 
单个 查询 项 的 相似 度 。 

使 用 项 间 关 系 可 以 构建 一 个 相似 度 同 义 词典 ， 这 是 源 自 于 把 所 有 的 项 看 做 是 概念 空间 中 
的 概念 。 在 这 个 概念 空间 中 ， eb 于 是 ,项 承担 了 文档 原先 的 作 
用 ， 而 文档 解释 为 索引 单元 。 接 下 来 的 定义 建立 了 一 个 合适 的 框架 。 

定义 ”如 前 所 述 OLR 3 章 )， 假设 (是 文档 集中 项 的 个 娄 ， NN 是 文档 集中 文档 的 个 数 ， 
Sig BR; HERB A; 中 出 现 的 次 数 。 而 有 全， 设 t; 是 文档 dl 中 不 同 项 的 个 数 ， ITF; 是 文档 
dj HERAA, EL: 


ITF; = log(+) 


195 这 是 类 似 于 反比 文档 频率 的 定义 。 
在 这 个 框架 内 ， 每 个 项 被 赋予 一 个 向 量 访 ,， 如 下 所 示 。 
F, = (Wii Wiz 9" Win) 


其 中 ， 正 如 第 3 章 中 那样 ，w,; 是 项 -文档 对 (k;，4d;) 的 权重 。 然 而 在 这 里 ， 文 档 权 重用 来 
表示 项 向 量 ， 而 不 是 像 3. 2. 6 节 中 的 经 典 向 量 模型 那样 用 项 权重 来 表示 文档 向 量 。 并 且 ， 这 
些 权重 是 用 不 同方 式 计算 的 ， 如 下 所 示 。 


fe . 
(0. 5 十 0.5 2 5 ITF, sw 


fist 2 
JS 0.5 +0. 5 ee 5) ITF: 


其 中 mar; f) 计算 第 i 项 的 所 有 fi; 系数 的 最 大 值 ， 即 遍历 了 文档 集 的 所 有 文档 。 我 们 注 
意 到 上 面 的 表达 式 是 TF-IDF 权重 的 变 体 ， 但 是 采用 了 反比 项 频 作 为 代替 。 
两 个 项 k, Mk. 之 间 的 关系 计算 为 相关 因子 cano WFR. 
Cav = RR by = Dw X Wey (5-15) 
Vd. 


我 们 注意 到 相关 性 测度 是 用 于 计算 标量 矩阵 的 相关 因子 的 变 体 ， 由 式 (5-12) 定义 。 主 要 的 
区 别 是 ， 权 重 是 基于 把 文档 解释 为 索引 单元 ， 而 不 是 把 文档 看 做 项 共 现 的 场所 。 全 局 相似 度 
同义词 典 是 由 式 (5-15) 定义 的 相关 因子 c,, 组 成 的 标量 项 间 和 矩阵 。 当 然 ， 计 算 这 个 矩阵 是 
代价 昂贵 的 。 但是， 这 个 全 局 相似 度 同义词 典 只 需要 计算 一 次 ， 并 且 可 以 被 增 量 式 地 更 新 。 

给 定 全 局 相似 度 同 义 词典 ， 查 询 扩展 是 按照 如 下 三 步 进 行 的 。 

。 第 一 步 ， 在 用 于 表示 索引 项 的 同一 个 向 量 空 间 中 表达 查询 。 

。 第 二 步 ， 根 据 全 局 相似 度 同 义 词 典 ， 计 算 每 个 与 查询 项 相关 的 索引 项 &。 和 整个 查询 

q 的 相似 度 sim(q, ky). 

。 第 三 步 ， 根 据 Sir(g，A.)， 用 前 了 个 索引 项 来 扩展 查询 。 

对 于 第 一 步 ， 查 询 表达 为 如 下 的 向 量 空间 中 的 形式 。 

定义 ”查询 g 被 赋予 一 个 向 量 可 ， 如 下 所 示 : 


7 = > wi F: 


其 中 由, 是 和 项 -查询 对 k q] 关联 的 权重 。 这 个 权重 是 由 式 (5-14) 给 定 的 ， 其 中 文档 
T dj MH BRI. 
对 于 第 二 步 ， 每 个 与 查询 项 相关 的 索引 项 k 和 用 户 查询 的 相似 度 sima, k) 计算 为 
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sim (qsks) = J * By = Ñ Wia X Civ (5-16) 


k Eq 


Hp, c EBER (5-15〉 给 定 的 相关 因子 。 
如 图 5-5 所 示 ， 相 对 于 单个 的 查询 项 ， 索 引 
Hi k, 可 能 更 接近 整个 查询 的 中 心 9.。 这 意味 
着 ， 这 里 选 出 的 用 于 查询 扩展 的 索引 项 可 能 
和 之 前 全 局 分 析 方 法 选 出 的 项 不 同 ， 之 前 是 
用 相对 于 单个 查询 项 的 相似 度 函 数 来 决定 查 
询 扩展 的 索引 项 ， 这 样 会 选择 k MKB, 
来 扩展 查询 。 

对 于 第 三 步 ， 把 根据 相似 度 sim(q, k) 图 5-5 索引 项 k, 到 查询 中 心 9 的 距离 可 能 与 &。 





排序 的 前 ~ 个 索引 项 加 入 到 原始 查询 9 形成 到 单个 查询 项 的 距离 完全 不 同 
扩展 查询 g,。 对 于 查询 qn 中 的 每 个 扩展 项 k, 赋予 一 个 权重 ww,.。， 如 下 所 示 。 
sim(g,k,) 


w. — 


UG 
Wig 
k; Eq 


扩展 查询 q。 用 来 检索 出 新 的 文档 。 与 之 前 的 全 局 分 析 方法 不 同 ， 这 个 技术 在 三 个 不 同 的 文 
档 集 中 都 取得 了 更 好 的 检索 质量 (20% (HE 
值得 注意 的 是 ， 假 设 文档 必 在 项 向 量 空间 中 表示 为 元 一 , 习 wke MH, BERK 


的 查询 g 扩展 后 包括 了 文档 集中 所 有 的 〈 赋 予 适 当权 重 的 ) He PRIM. RH, 文档 d; 
和 查询 9 之 间 的 相似 度 sim (gqg，4d;) 可 以 在 项 向 量 空间 内 计算 为 : 
sim(q,d;) = X Yw. X Wua X Cuv (5-17) 


这 样 的 表达 式 类 似 于 广义 向 量 空间 模型 ( 见 3.4.1 节 ) 中 的 查询 -文档 相似 度 。 这 样 ， 
广义 向 量 空间 模型 可 以 解释 为 查询 扩展 技术 。 其 主要 的 区 别 是 权重 计算 ,以 及 在 这 里 描述 的 
索引 项 -概念 技术 只 使 用 前 > 个 项 来 扩展 。 


5.6.2 基于 统计 同义词 典 的 查询 扩展 


本 节 中 ， 我 们 讨论 基于 全 局 统计 同义词 典 [457] 的 查询 扩展 技术 。 这 与 上 面 所 描述 的 
基于 相似 度 同 义 词典 的 方法 有 很 大 不 同 。 

全 局 同义词 典 是 由 整个 文档 集中 相互 关联 的 索引 项 组 成 的 同义词 类 构成 的 。 这 些 相 互 
关联 的 索引 项 可 以 用 来 扩展 原来 的 用 户 查 询 。 为 了 取得 更 好 的 效果 ， 选 出 的 扩展 项 必须 
有 较 高 的 区 分 度 [1417]， 这 意味 着 它们 必须 是 低频 项 。 然 而 ， 由 于 低频 项 的 信息 量 少 
(它们 出 现在 少数 几 篇 文档 中 )， 因 此 难于 对 它们 进行 有 效 的 聚 类 。 为 了 避免 这 个 问题 ， 
把 文档 聚 成 艇 ， 并 用 艇 内 文档 中 低频 项 的 集合 来 定义 同义词 类 。 这 确保 了 文档 取 类 算法 
产生 小 而 紧 的 簇 。 

一 个 产生 小 而 紧 的 得 的 文档 聚 类 算法 是 完全 链接 算法 (complete link algorithm), EA 
流程 如 下 (基本 表示 ): 

1) 首先 ， 把 每 个 文档 放 在 一 个 不 同 的 簇 中 。 

2) 计算 所 有 簇 间 的 相似 度 。 

3) 找到 具有 最 高 馈 间 相似 度 的 [【C. Ce 

4) 合并 簇 C, 和 C,。 
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D 验证 停止 条 件 。 如 果 这 个 条 件 不 满足 ， 回 到 第 2 步 。 

O 返回 层次 化 的 聚 类 结果 。 

两 个 化 间 的 相似 度 定义 为 所 有 簇 间 文档 对 〈 即 不 在 同一 个 佬 中 的 两 篇 文档 ) 的 最 小 相似 
度 。 为 了 计算 一 对 文档 之 间 的 相似 度 ， 使 用 向 量 模型 
中 的 余弦 公式 。 作 为 这 个 最 小 准则 的 结果 ， 得 到 的 艇 
趋 于 小 而 紧 。 

假设 整个 文档 集 已 经 用 完全 链接 算法 进行 了 聚 类 。 
图 5-6 说 明了 包含 得 C,，C, MC. 的 整个 聚 类 层次 体 
系 中 的 一 小 部 分 ， 其 中 sim(C,,，C,) =0.15, sim 
(Caros C=011, Cu KRAJ C, AC, BANK. 
我 们 注意 到 当 层次 体系 上 升 时 ， 相 似 度 下 降 ， 这 是 因 图 56 KARERE ERINE 
为 高 层 的 艇 包括 了 更 多 的 文档 ， 表 示 更 松散 的 组 合 。 层次 体系 。 簇 间 相 似 度 在 椭圆 中 
因此 ， 最 紧密 的 复位 于 聚 类 体系 的 底部 。 标 出 

给 定 整个 文档 集 的 聚 类 层次 结构 ， 全 局 同义词 典 中 组 成 每 个 同义词 类 的 索引 项 是 按照 如 
下 的 方式 挑选 的 。 

。 从 用 户 获得 三 个 参数 : BAA (Threshold Class, TC), 、 灸 中 的 文档 数 (Number of 
Documents in a Class, NDC) 和 最 大 反比 文档 频率 (Maximum Inverse Document 
Frequency, MIDF), 

。 使 用 参数 TC 作为 判定 用 于 生成 同义词 类 的 文档 簇 的 阐 值 。 如 果 簇 C, AC, 中 的 文 
RAAT RS lh] MARK, AARP YA eT sim(C,，C,)。 例 如 ， 
在 图 5-6 中 ， 如 TC 的 值 为 0. 14， 则 返回 一 个 同义词 类 C+,， 而 0. 10 的 TC 值 可 以 
返回 类 Ci, 和 Ct,+:。 

。 使 用 参数 NDC 作为 要 考察 的 簇 的 数量 限制 《文档 数量 )。 例 如 ， 如 果 Core M Carer 
是 (通过 参数 TC) 预选 的 ， 那 么 参数 NDC 可 能 用 来 在 这 两 者 间 做 决定 。 较 低 的 
NDC 值 可 能 把 挑选 限制 在 更 小 的 徐 C1, 中 。 

。 考察 如 上 (通过 参数 TC 和 NDO MANET RAR. 。 只 有 低频 项 被 用 作 索 引 项 同 
义 词 类 的 来 源 集合 。 参 数 MIDF 定义 了 被 选中 加 入 同义词 典 的 索引 项 反比 文档 频率 
的 最 小 值 。 这 样 做 才 可 能 确保 仅 有 低频 项 加 入 到 生成 的 同义词 典 中 (太一 般 的 项 不 
是 好 的 同义词 ) 。 

给 定 已 经 构建 好 的 同义词 类 ， 它 们 能 用 于 查询 扩展 。 对 此 ， 每 个 同义词 类 C 的 平均 项 

RE wte 计算 如 下 : 





icl] 
X wie 
wte = Fer 
其 中 | C | 是 同义词 类 C 中 项 的 个 数 ，xw,c 是 预先 算 好 的 项 -同义词 类 对 Le, C] 的 权重 。 
这 样 可 以 用 这 个 平均 项 权重 来 计算 同义词 类 的 权重 we: 
we = Jef X05 
上 述 的 权重 公式 已 经 通过 实验 验证 了 ， 并 产生 了 好 的 结果 。 
四 个 测试 文档 集 CADI, Medlars, CACM 和 ISI， 这 些 文档 集 的 详情 参见 4. 4 节 ) 上 的 
实验 结果 表明 ， 使 用 由 完全 链接 算法 构建 的 全 局 分 析 可 以 在 检索 质量 上 产生 一 致 的 提高 。 
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这 个 方法 的 主要 问题 是 参数 TC、NDC 和 MIDF 的 初始 化 。 阐 值 TC 依赖 于 文档 集 ， 且 
难于 正确 设置 。 设 置 TC 时 总 是 需要 对 聚 类 层次 进行 观察 。 因 为 高 TC 值 可 能 会 产生 由 少数 
几 个 项 组 成 的 同义词 类 ， 而 低 TC 值 可 能 会 生成 很 少 几 个 同义词 类 ， 所 以 要 格外 小 心 。 当 
TC 已 经 确定 时 ， 参数 NDC 可 以 更 容易 地 确定 。 然 而 ， 参 数 MIDF 的 确定 可 能 是 困难 的 ， 
并 且 也 需要 仔细 地 考虑 。 


5.7 趋势 和 研究 问题 


在 相关 反馈 中 的 一 个 主要 问题 是 如 何 大 规模 地 整合 反馈 信息 ， 也 就 是 那些 可 用 于 提高 大 
量 不 同 的 查询 检索 结果 的 信息 。 这 在 Web 上 尤为 重要 ， 因 为 查询 覆盖 了 大 量 不 同 的 主题 。 
为 了 让 相关 反馈 有 效 ， 就 要 在 不 干扰 用 户 的 情况 下 搜集 反馈 信息 ， 这 意味 着 Web 上 自然 的 
用 户 反 馈 信息 源 是 用 户 在 搜索 引擎 结果 上 的 点 击 。 因 此 ， 一 个 主要 的 研究 趋势 是 基于 用 户 点 
击 修改 查询 的 研究 。 

局 部 分 析 技 术 是 有 趣 的 ， 因 为 它们 利用 了 由 查询 提供 的 局 部 上 下 文 。 就 这 一 点 而 言 ， 它 
们 看 上 去 比 全 局 分 析 技 术 更 合适 。 而 且 ， 在 文献 中 已 经 报告 了 许多 积极 的 结果 。 然 而 ， 把 局 
部 分 析 技 术 应 用 到 Web 中 需要 进一步 探索 。 由 于 需要 在 提交 查询 时 处 理 文档 ， 所 以 主要 的 
困难 是 在 搜索 引擎 上 的 计算 代价 。 因 此 ， 一 个 和 相关 性 有 关 的 问题 是 搜索 引擎 要 开发 加 快 查 
询 处 理 的 技术 。 实 际 上 ， 即 使 只 考察 正常 的 查询 处 理 ， 这 个 问题 也 是 值得 关注 的 ， 因 为 搜索 
引擎 为 了 能 在 经 济 上 得 到 保障 ， 就 需要 处 理 尽 可 能 多 的 查询 。 

将 局 部 分 析 、 全 局 分 析 和 用 户 点 击 相 结合 是 当前 重要 的 研究 问题 。 而 且 ， 让 用 户 可 视 化 
地 探索 文档 空间 ， 提 供 他 一 些 线索 ， 从 而 帮助 表达 查询 似乎 是 一 个 值得 期 待 的 研究 方向 。 即 
使 研究 人 员 和 实践 人 员 在 这 个 领域 没有 获得 一 致 的 进展 ， 考 虑 到 用 户 界 面 的 设计 ， 积 极 的 结 
果 可 能 变 成 一 个 转折 点 ， 可 能 会 吸引 广泛 的 关注 。 


5.8 文献 讨论 

查询 扩展 方法 的 研究 历史 很 长 。 尽 管 近 年 来 扩展 方法 是 否 成 功 一 直 受 到 争议 (该 方法 提 
高 了 召回 率 ， 但 没有 提高 精度 )， 但 是 目前 的 统计 结果 表明 查询 扩展 是 一 项 有 用 的 技术 。 实 
际 上 ， 现 代 搜 索引 擎 经常 把 查询 扩展 技术 应 用 到 查询 流 中 ， 从 而 推荐 查询 重 构 。 

把 和 用 户 查询 紧密 联系 的 索引 项 用 于 查询 扩展 的 早期 工作 是 由 Maron 和 Kuhns[1093] 
在 1960 年 开展 的 。 经 典 的 技术 是 把 向 量 模型 中 的 查询 扩展 和 索引 项 再 赋 权 结合 起 来 ， 这 是 
由 Rocchio 在 1965 年 提出 的 (使 用 了 Smart 系统 [1408] 作为 测试 平台 )， 并 之 后 发 表 在 
[1375]. Ide 继续 了 Rocchio 的 研究 ， 提 出 了 索引 项 再 赋 权 的 变 体 公式 [806]. 

概率 模型 是 由 Robertson 和 Spark Jones[1365] 在 1976 年 引入 的 。 一 份 彻底 的 、 令 人 
欣赏 的 关于 这 个 模型 的 讨论 可 以 在 van Rijsbergen[1624] 的 书 中 找到 。Croft 和 Harper 
[452] 建议 初始 搜索 应 该 使 用 不 同 的 计算 方法 。1983 年 ，Croft[450] 提出 扩展 概率 模型 公 
式 来 包含 文档 内 频率 ， 并 引入 了 参数 C 和 天 。 

由 于 概率 模型 没有 提供 扩展 查询 的 方法 ， 因 此 查询 扩展 是 单独 进行 的 。1978 年 ，Har- 
per 和 van Rijsbergen[708] 使 用 了 基于 最 大 生成 树 的 索引 项 聚 类 技术 来 为 概率 查询 扩展 挑 
选 索引 项 。 两 年 后 ， 他 们 也 引入 了 一 个 新 的 相关 权重 公式 ， 称 为 EMIM[L707]， 用 于 他 们 的 
查询 扩展 技术 中 。1981 年 ，Wu 和 Salton[1722] 使 用 相关 反馈 〈 采 用 概率 公式 ) 来 对 从 相 
关 文 档 中 抽取 的 索引 项 再 赋 权 ， 并 用 这 些 索 引 项 来 扩展 查询 。 实 验 结果 表明 检索 质量 有 所 


提高 。 
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在 5.3 节 中 ， 我 们 对 向 量 和 概率 模型 中 关于 用 户 相关 反馈 的 讨论 是 基于 4 个 来 源 ，Sal- 
ton 和 Buckley[1410] 的 论文 、van Rijsbergen[1624] 的 书 、Salton 和 McGill[1414] 的 书 
以 及 Harman[700, 701] 中 的 两 章 。 一 项 著名 的 关于 相关 反馈 方法 的 比较 研究 是 由 Buckley 
和 Salton 在 [1411] 中 提供 的 。 其 他 关于 相关 反馈 方法 的 文献 可 以 在 [1，29，289，290， 
1758] 中 找到 ， 

通过 点 击 进行 显 式 反 馈 是 近来 令 人 激动 的 研究 领域 ， 这 是 由 Joachims 和 他 的 助手 
[245, 841, 842, 844, 845, 846, 1320, 1321, 1322, 1323] 持续 深入 的 工作 推动 的 。 他 
们 的 工作 利用 了 之 前 对 象 排序 学 习 的 工作 [407，591]， 且 激励 了 近来 在 使 用 点 击 提高 Web 
排序 的 工作 ， 例 如 Agichtein 等 人 [17, 18] 的 工作 以 及 其 他 (580, 1462, 1687]. 

对 于 自动 的 查询 扩展 ，Lesk[1004] 在 Smart 系统 中 尝试 了 不 同 的 索引 项 聚 类 技术 ， 却 
没有 得 到 积极 的 结果 。 接 着 ，Spark Jones 和 Barberl1509], LÆ Minker, Wilson 和 Zim- 
merman[ 1137] 也 没有 在 索引 项 全 局 聚 类 上 观察 到 提高 。 这 些 早 期 的 研究 结果 给 人 留 下 这 样 
HAR: 基于 全 局 分 析 的 查询 扩展 不 是 一 个 有 效 的 技术 。 然 而 ， 更 多 最 近 的 研究 结果 表明 情 
ULAR SARE. SERRE. fH Voorheesl1645], Crouch 和 Yang[L457]， 以 及 Qiu 和 Frei[1309 ] 
获得 的 结果 表明 基于 全 局 分 析 的 查询 扩展 可 以 一 致 地 产生 更 好 的 检索 质量 。 

我 们 对 于 局 部 聚 类 的 查询 扩展 的 讨论 是 基于 Attar 和 Fraenkel[78] 在 1977 年 的 早期 工 
作 。 局 部 上 下 文 分 析 的 思想 是 最 近 由 Xu 和 Croft[1732] 在 1996 年 引入 。 采 用 全 局 相似 度 
同义词 典 在 查询 扩展 上 的 讨论 以 Qiu 和 Frei 的 工作 [1309] 为 基础 。 最 后 ， 关 于 使 用 全 局 
统计 同义词 典 的 查询 扩展 的 讨论 是 基于 Crouch 和 Yang 的 著作 [457]j， 后 者 受到 了 早期 在 
1975 年 Salton, Yang 和 YuLl417] 的 索引 项 区 分 度 理论 的 影响 。 有 关 基 于 概念 的 Web 查询 
扩展 的 讨论 可 以 参见 [572]. 

由 于 查询 扩展 经 常 是 基于 某 些 形式 的 聚 类 ， 因 此 我 们 的 讨论 涵盖 了 某 些 聚 类 算法 。 更 多 
关于 文本 聚 类 算法 的 讨论 可 以 在 第 8 章 中 找到 。 然 而 ， 我 们 的 目的 不 是 要 提供 一 个 用 于 信息 
检索 的 聚 类 算法 的 完整 综述 。 这 样 的 综述 可 以 在 Rasmussen 的 作品 [1334] 中 找到 。 

相关 反馈 的 思想 在 其 他 领域 也 获得 了 成 功 应 用 ， 例 如 基于 内 容 的 图 像 检 索 。 其 中 ， 用 户 
反馈 信息 是 以 图 像 正 例 和 负 例 形式 提供 的 。 基 于 内 容 的 图 像 检 索 中 的 相关 反馈 技术 [435， 


202] 1058, 1116, 1393, 1394, 1395, 1396, 1784] 用 这 些 信 息 来 估计 初始 查询 。 


| 第 6 章 


Modern Information Retrieval: The Concepts and Technology behind Search, 2E 


文档 : 语言 及 属性 


一 一 与 Gonzalo Navarro 和 Nivio Ziviani 合 著 





6.1 介绍 

文本 是 人 类 用 来 交流 知识 的 主要 记录 方式 ， 随 着 历史 的 进程 ， 它 们 被 写 在 石头 、 木 头 、 
动物 的 皮革 、 草 纸 或 米 纸 的 表面 。 如 今 在 地 球 的 每 一 个 角落 ， 文 本 以 众多 形式 和 请 言 写 在 纸 
上 。 文 本 被 记录 在 包括 打印 格式 或 数字 格式 等 多 种 媒介 中 ， 但 是 识别 出 它 的 单元 是 什么 仍然 
不 是 一 件 容 易 的 事 。 为 了 解决 这 个 问题 ， 我 们 一 般 将 文本 信息 的 基本 单元 定义 为 文档 〈doc- 
ument) 。 这 个 定义 是 非常 宽泛 的 ， 比 如 一 篇 文档 可 能 指 的 是 一 篇 科研 论文 、 一 本 书 、 一 本 
手册 、 字 上 典 的 一 个 条 目 、 法 官 对 某 个 案件 的 一 个 判决 、 汽 车 部 件 的 说 明 ， 其 至 是 规模 更 大 的 
文本 的 一 部 分 ， 比 如 一 个 或 多 个 段落 的 序列 (在 信息 检索 中 这 被 称 为 文本 段落 (text pas- 
sage)) 。 就 物理 表示 而 言 ， 一 篇 文档 也 可 以 是 任何 打印 的 或 者 数字 表示 的 物理 单元 ， 如 一 个 
文件 、 一 封 电子 邮件 或 者 一 个 网 页 。 

文档 有 特定 的 语法 和 结构 ， 这 往往 是 由 文档 的 用 途 或 者 创建 者 来 决定 的 。 文 档 也 包含 了 
特定 的 语义 ， 它 是 由 文档 的 作者 决定 的 ， 而 文档 的 作者 也 不 一 定 就 是 文档 的 创建 者 。 另 外 ， 


文档 也 可 能 包括 和 它 关联 的 展示 样式 ， 用 来 指定 文 文档 

档 应 该 怎样 被 显示 或 者 打印 。 展 示 样式 是 与 文档 的 kan 展示 样式 

语法 和 结构 相关 联 的 ， 并 且 根据 特定 的 应 用 〈 如 语法 其 他 媒体 

Web 浏览 器 ) 定制 。 图 6-1 描述 了 所 有 这 些 关 联 。 语义 
文档 的 语法 (syntax) 用 来 表示 结构 、 显示 样 图 6-1 文档 的 特征 


A. EX, 甚至 外 部 行为 。 在 很 多 情况 下 ， 这 些 元 
素 中 的 一 个 或 者 多 个 隐 含 在 文本 中 或 者 被 一 同 提供 。 比 如 ， 章 节 等 结构 元 素 就 有 固定 的 格式 
FEAR. MH. 文档 的 语义 也 是 和 它 的 用 法 相关 联 的 。 例 如 ，Postscript 指令 就 是 为 绘画 而 设 
计 的 。 

文档 的 语法 可 能 会 隆 含 地 出 现在 它 的 上 下 文中 ， 也 可 能 会 直接 显 式 地 体现 在 简单 的 说 明 
性 语言 甚至 是 编程 语言 中 。 例 如 ， 很 多 编辑 格式 就 是 说 明 式 的 ， 而 TeX 文档 就 使 用 了 一 种 
强大 的 排版 语言 。 尽 管 强大 的 语言 往往 比 直接 分 析 数 据 本 身 更 加 容易 ， 但 是 将 使 用 那 种 语言 
的 文档 转换 为 另外 一 种 格式 会 变 得 非常 困难 。 

很 多 语法 的 语言 是 特定 的 、 专 用 的 ， 但 是 开放 的 、 通 用 的 语言 会 更 好 ， 因 为 这 样 的 文档 
可 以 在 不 同 应 用 之 间 传 递 并 且 更 加 的 灵活 。 文 本 也 可 用 自然 语言 书写 ， 尽 管 自然 语言 的 语义 
会 更 难 利用 计算 机 自动 解释 。 现 在 的 趋势 是 利用 能 够 表达 出 文档 的 结构 、 格 式 和 语义 信息 ， 
同时 无 论 对 于 人 类 还 是 计算 机 都 是 可 读 的 语言 。 标 准 通 用 标记 语言 (Standard Generalized 
Markup Language, SGML) 试图 平衡 在 上 面 提 到 的 问题 ， 我 们 将 在 随后 的 章节 中 涉及 这 部 
分 内 容 。 

大 多 数 的 文档 都 有 特殊 的 版 式样 式 。 然 而 ， 新 的 应 用 程序 都 在 力图 使 用 外 部 格式 ， 从 而 
使 得 表示 的 信息 和 样式 独立 开 来 ， 反 之 亦 然 。 展 示 样 式 可 以 嵌 人 在 文档 中 ， 比 如 TeX 或 者 
富 文本 格式 (Rich Text Format，RTEF) ， 并 且 可 以 利用 宏 (macro) 来 辅助 CHM, LaTeX 
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就 是 TeX 的 一 个 宏 )。 在 大 多 数 情况 下 ， 样式 是 由 文档 的 作者 来 定义 的 。 然 而 ， 读 者 可 能 会 
决定 某 些 样式 特征 ， 比 如 通过 Web 浏览 器 的 设置 选项 。 文 档 的 样式 定义 了 这 个 文档 如 何在 
计算 机 窗口 中 或 者 在 纸 上 展 示 ， 而 且 也 会 包括 对 其 他 媒体 ， 如 音频 和 视频 的 处 理 。 

搜索 引擎 查询 ， 即 使 它们 和 文档 并 不 完全 相同 ， 但 也 可 以 看 成 是 由 词语 序列 或 者 句子 组 
成 的 短文 本 片段 。 然 而 ， 查 询 的 特征 不 同 于 普通 的 文本 ， 因 此 如 何 解释 它们 是 非常 重要 的 。 
此 外 ， 由 于 词语 的 多 义 性 ， 查 询 的 语义 通常 是 模糊 的 ， 因 此 从 查询 中 推测 出 用 户 的 意图 也 是 
不 容易 的 。 

在 本 章 中 ， 我 们 将 讨论 元 数据 、 文 本 特征 〈 如 格式 和 自然 语言 的 统计 特性 ) 和 用 来 描述 
文本 结构 、 显 示 样 式 和 语义 的 语言 。 之 后 ， 我 们 将 讨论 文本 属性 ， 怎 样 预 处 理 和 组 织 文档 ， 
以 及 文本 压缩 。 


6.2 元 数据 

大 多 数 文档 和 文本 集 都 伴随 元 数据 。 元 数据 (metadata) 是 关于 数据 组 织 、 各 种 数据 域 
以 及 它们 之 间 关 系 的 信息 。 简 而 言 之 ， 元 数据 是 “数据 的 数据 ”。 例 如 ， 在 数据 库 管理 系统 
H, RA (schema) 指定 了 一 些 元 数据 ， 例 如 关系 的 名 称 、 每 个 关系 的 字段 Cied) 或 属性 
以 及 每 个 属性 的 定义 域 (domain) 等 。 

伴随 文本 的 元 数据 的 通常 形式 ， 包括 作者 、 出 版 日 期 、 出 版 来 源 、 文 档 长 度 (以 页 数 、 
词 数 或 字 节 为 单位 ) 以 及 文档 类 型 “如 书 、 文 章 或 者 备 忘 )。 例 如 ， 都 柏林 核心 元 素 集 (the 
Dublin core metadata element set) [1675] 提出 了 15 个 字段 来 描述 文档 。 根 据 Archionini 
[1082] 的 定义 ,我 们 把 这 种 信息 称 为 描述 元 数据 (descriptive metadata)， 它 们 和 文档 的 意 
义 无 关 ， 和 文档 如 何 被 创建 相关 。 另 一 种 元 数据 描述 了 文档 内 容 的 主题 ， 它 们 称 为 语义 元 数 
% (semantic metadata) 。 大 量 的 文档 都 使 用 这 些 元 数据 ， 并 且 它 们 的 可 用 性 也 在 不 断 增加 。 
比如 ， 所 有 在 美国 出 版 的 书籍 都 分 配 有 美国 国会 图 书馆 (Library of Congress) 主题 代码 ， 
很 多 期 刊 都 要 求 作者 在 一 个 包含 术语 的 封闭 字典 里 选择 几 个 关键 词 。 比 如 ， 出 现在 MED- 
LINK(S WA 4) 系统 中 的 生物 医学 论文 都 需要 分 配 一 个 与 病理 学 、 解 剖 学 、 制 药学 等 相 
关 的 主题 元 数据 。 为 了 标准 化 语义 术语 ， 很 多 领域 都 使 用 了 特定 的 分 类 体系 (taxonomy), 
分 类 体系 一 般 都 是 一 个 由 描述 某 些 知识 主题 的 术语 组 成 的 层次 结构 ， 将 在 第 8 章 中 进行 
介绍 。 

一 个 重要 的 元 数据 格式 是 在 图 书馆 记录 中 使 用 最 多 的 机 器 可 读 目 录 C Machine Readable 
Cataloging Record, MARC), MARC 是 由 多 个 字段 组 成 的 ， 这 些 字 段 对 应 不 同 的 书目 摘要 
条 目 ， 例 如 标题 和 作者 。MARC 有 着 非常 特定 的 用 途 ， 我 们 将 在 第 16 章 中 讨论 。 在 美国 ， 
一 个 特殊 版 本 的 MARC 也 在 使 用 ， 称 为 USMARC, ERA ANSI/NISO Z39. 2 标准 ，AN- 
SI/NISO Z39. 2 是 书目 信息 交换 (Bibliographic Information Interchange) 的 美国 国家 标准 。 
根据 Z39.2 标准 ，USMARC 格式 包括 了 必须 应 用 在 书目 结构 中 的 字段 的 定义 和 内 容 。 
Z39. 2 标准 是 由 美国 国会 图 书馆 维护 的 。 现 在 也 有 了 XML 版 本 的 MARC( 参 见 6.4.3 节 )。 

ME Web 上 数据 量 的 激增 ， 人 们 开始 尝试 给 Web 文档 添加 元 数据 信息 。 在 Web 上 使 
用 元 数据 有 很 多 的 原因 ， 比 如 编目 需求 (cataloging) (BibTeX 就 是 这 种 情况 下 一 个 非常 流 
行 的 格式 )、 内 容 评级 (content rating) (比如 ， 为 了 防止 儿童 阅读 到 不 良 文 档 ) 、 知 识 产权 
保障 、 数 字 签 名 鉴定 、 隐 私 级 别 鉴别 (用 于 文档 的 准 入 控制 );， 以 及 实现 用 于 电子 商务 的 应 
用 。 就 这 一 点 而 言 ， 互 联网 内 容 选 择 平台 (Platform for Internet Content Selection, PICS) 
使 元 数据 与 互联 网 内 容 相 关联 ， 并 应 用 于 内 容 评 级 、 代 码 签名 (code signing) 和 隐私 控制 。 
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事实 上 ，PICS 平台 已 经 应 用 于 多 个 内 容 审查 服务 和 过 滤 软 件 。 

Web 元 数据 最 重要 的 标准 是 资源 描述 框架 (Resource Description Framework, RDF) 
[1660，983]， 它 使 不 同 的 应 用 程序 共同 工作 成 为 可 能 。 人 们 可 以 利用 这 个 框架 描述 Web 资 
源 ， 以 便 更 加 容易 地 自动 处 理 信息 ， 在 6. 4.4 节 中 ， 我 们 会 更 详细 地 讨论 它 。RDF 并 没有 
设 定 任何 特殊 的 应 用 或 语义 领域 。 它 由 结 点 和 附 在 结 点 上 的 属性 - 值 对 的 描述 所 构成 。 结 点 
可 以 是 任意 的 Web 资源 ， 也 就 是 ， 统 一 资源 标识 符 (Uniform Resource Identifier, URI), 
URI 包括 用 于 指定 网 页 的 统一 资源 定位 符 (Uniform Resource Locator，URL)。 属 性 是 结 
点 的 性 质 ， 值 是 文本 串 或 者 其 他 结 点 (Web 资源 或 者 元 数据 示例 )。 为 了 描述 属性 的 语义 和 
领域 ， 可 以 使 用 都 柏林 核心 元 数据 URL (Dublin Core library metadata URL)。 对 于 内 容 评 
级 和 数字 签名 的 应 用 ， 需 要 给 定 其 他 的 预定 义 的 元 数据 词汇 表 。 


6.3 文档 格式 


6.3.1 文本 


随 着 计算 机 的 出 现 ， 文本 需要 用 二 进 制 数字 进行 编码 。 最 初 的 编码 方案 是 EBCDIC 和 
ASCII, 它们 都 是 利用 7 位 对 字母 表 中 的 每 个 字母 进行 编码 。 之 后 ，ASCII 被 标准 化 为 8 位 
(ISO-Latin) ， 使 之 可 以 适用 于 多 种 语言 ， 包 括 重 读 符号 以 及 变 音 符 (diacritical) 等 符号 。 
然而 ，ASCII 码 并 不 适合 中 文 或 日 文 汉字 等 东方 语言 ， 它 们 中 的 每 一 个 符号 可 能 代表 一 个 概 
念 ， 因 此 有 成 和 于 上 万 的 符号 。 针 对 这 种 情况 ， 出 现 了 16 位 的 编码 Unicode (ISO 10616) 
[1617]。 除 了 字符 外 ， 对 于 文本 并 没有 一 种 单一 的 标准 格式 。 

过 去 ， 信 息 检索 系统 需要 将 文档 转换 为 内 部 格式 。 然 而 ， 这 样 处 理会 有 很 多 缺点 ， 如 不 
能 对 文档 文本 直接 访问 和 直接 修改 。 为 了 能 够 处 理 不 同 内 部 格式 的 大 量 文本 ,检索 系 统 用 过 
滤器 来 过 滤 大 多 数 流 行 的 文档 格式 ,特别 是 那些 文字 处 理 软 件 ， 如 Word 和 FrameMaker, 
即便 这 样 ， 如 果 格 式 是 专用 的 并 且 它 的 细节 没有 公布 ， 那 么 过 滤器 就 可 能 不 能 处 理 。 但 是 就 
TeX 文档 一 样 ， 如 果 语 法 是 完全 基于 ASCI 码 的 ， 那 么 就 不 存在 问题 。 也 就 是 说 ， 用 人 
们 可 读 的 ASCI 码 编 码 的 文档 有 更 强 的 可 移植 性 且 更 容易 修改 ， 因 为 它们 可 以 用 各 种 不 同 
的 应 用 程序 进行 编辑 。 

人 们 也 为 文档 交换 设计 了 其 他 的 文本 格式 。 其 中 一 个 应 当 提 及 的 是 富 文本 格式 (Rich 
Text Format，RTF) ， 它 是 基于 ASCH 码 的 语法 并 且 被 Word 系列 的 文本 处 理 器 使 用 。 其 他 
一 些 重要 的 格式 为 显示 和 打印 文档 而 开发 。 其 中 最 流行 的 就 是 便携 文档 格式 (Portable Doc- 
ument Format, PDF) 和 Postscript，Postscript， 是 一 种 强大 的 编程 式 绘画 语言 。 还 有 一 些 
交换 格式 用 来 编码 电子 邮件 ， 多 用 途 互 联网 邮件 扩展 《Multipurpose Internet Mail Ex- 
change, MIME) 是 一 个 很 好 的 例子 。MIME 支持 多 种 字符 集 、 多 种 语言 以 及 多 种 媒体 。 

为 了 减少 存储 空间 ， 很 多 文件 也 需要 压缩 。 文 本 压缩 将 在 6. 8 节 中 详细 地 讨论 ， 但 是 我 
们 这 里 提 及 几 个 最 流行 的 压缩 软件 以 及 它们 对 应 的 文件 格式 。 它 们 包括 Compress( UNIX), 
ARJ(PC) 和 ZIP( 如 UNIX 中 的 gzip 以 及 Windows 中 的 Winzip) 。 另 外 一 些 工 具 人 允许 将 二 
进 制 文件 《特别 是 压缩 过 的 文本 ) 转换 为 ASCII 码 文本 ， 从 而 使 得 文件 可 以 通过 一 个 只 有 T 
位 的 通信 线路 传输 。 比 如 wuencode/uudecode 和 binhex 就 是 这 类 工具 。 


6.3.2 多 媒体 
多 媒体 通常 用 来 处 理 源 自 不 同类 型 媒介 的 不 同类 型 的 数字 化 数据 。 多 媒体 中 最 常见 的 媒 
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介 是 文本 、 声 音 、 图 像 和 视频 (视频 就 是 一 个 动态 的 图 像 序列 )。 由 于 上 面 四 种 媒介 的 数字 
化 数据 在 容量 、 格 式 和 处 理 要 求 〈 比 如 处 理 视频 和 音频 数据 有 一 定 的 实时 性 要 求 ) 上 都 有 很 
大 的 不 同 ， 因 此 存储 每 种 媒介 都 需要 不 同 的 格式 。 

相对 文本 格式 而 言 ， 大 多 数 的 多 媒体 格式 是 部 分 二 进 制 的 ， 因 此 只 能 由 计算 机 来 处 理 。 
同时 ， 显 示 样 式 也 几乎 完整 定义 ， 但 在 一 些 空间 或 时 间 属 性 上 或 许 会 有 些 例 外 。 这 里 我 们 简 
要 地 介绍 多 媒体 的 主要 格式 和 数据 类 型 ， 关 于 如 何在 Web 上 使 用 它们 将 在 第 11 章 和 第 17 
章 中 讨论 。 

图 像 格 式 : GIF, JPEG, TIFF, PNG 

图 像 格式 有 很 多 种 。 最 简单 的 格式 就 是 用 位 图 (或 者 基于 像素 的 表示 ) 直接 表示 ， 比 如 
XBM、BMP 或 者 PCXS 。 然 而 ， 这 些 格式 占用 太 多 空间 。 例 如 ， 典 型 的 计算 机 屏幕 中 每 个 
像素 有 256 种 颜色 ， 描 述 一 屏 内 容 就 需要 1MB 空间 。 实 际 上 ， 图 像 存 在 很 大 的 元 余 并 且 可 
以 被 高 效 地 压缩 。 因 此 ， 最 流行 的 图 像 格 式 都 进行 了 压缩 ， 比 如 Compuserve 公司 的 图 像 交 
换 格 式 (Graphic Interchange Format, GIF). GIF 格式 适用 于 黑白 图 像 以 及 只 包含 少量 
HEREKE (256 RKE) 的 图 像 。 为 了 取得 对 高 分 辨 率 图 像 的 更 高 压缩 比 ， 人 们 设计 出 
了 有 损 压 缩 算法 。 也 就 是 说 ， 一 个 压缩 的 图 像 不 能 解压 缩 并 恢复 到 原始 的 图 像 。 联 合 图 像 专 
家 组 (Joint Photographic Experts Group, JPEG) 提出 一 种 格式 ， 这 个 格式 尝试 去 除 图 像 
中 对 人 眼影 响 很 小 的 部 分 。 这 个 格式 是 参数 可 调 的 ， 在 这 个 意义 上 来 说 ， 图 像 的 损失 可 以 
调整 。 

另 一 种 常见 的 图 像 格 式 是 标签 图 像 文件 格式 (Tagged Image File Format，TIFF)。 这 
个 格式 用 于 在 不 同 的 应 用 程序 和 计算 机 平台 之 间 交 换文 档 。TIFF 有 一 个 元 数据 字段 并 支持 
压缩 和 不 同 数 量 颜 色 的 图 像 。 另 外 一 个 格式 是 Truevision Targa(TGA) 图 像 文 件 ， 这 个 格 
式 与 视频 游戏 平台 相关 。 还 有 更 多 的 图 像 格式 ， 很 多 是 和 特殊 的 应 用 相关 ， 比 如 传真 (CE 
图 像 格 式 JBIG) 、 指 纹 采集 (高 精度 的 压缩 格式 ， 如 WSQ) 和 卫星 图 像 〈 高 分 辨 率 和 全 色 
PAR. 1996 年 ， 出 现 了 一 种 在 互联 网 上 使 用 的 位 图 图 像 格 式 ; 便携 式 网 络 图 像 (Porta- 
ble Network Graphics，PNG) 。 这 个 格式 已 经 成 为 Web 上 的 事实 标准 。 

为 了 能 够 适当 地 存储 ， 音 频 首先 需要 数字 化 。 最 常见 的 小 段 数字 音频 格式 是 AU, MI- 
DI 和 WAVE. MIDI 格式 是 在 电子 乐器 和 计算 机 之 间 交 换 音乐 的 标准 格式 。 对 于 音频 库 ， 
也 使 用 像 RealAudio 或 者 CD 格式 等 一 些 其 他 格式 。 

对 于 动画 或 动态 的 图 像 (类 似 于 视频 或 者 电视 ) 也 有 多 种 格式 ， 但 是 这 里 我 们 只 介绍 最 
流行 的 几 个 。 最 主要 的 一 个 是 动态 图 像 专家 组 (Moving Pictures Expert Group, MPEG) 
格式 ， 这 个 格式 与 JPEG 相关 。MPEG 的 原理 是 在 固定 间隔 中 只 对 和 给 定 的 基 图 像 之 间 的 差 
异 进 行 编码 。 用 这 种 方式 ，MPEG 受益 于 任何 视频 都 有 的 时 序 图 像 元 余 。 更 高 的 质量 可 以 
用 更 多 的 帧 数 Crame) 和 更 好 的 分 辩 率 来 获得 。MPEG 指定 了 不 同 的 压缩 等 级 ， 但 是 通常 
不 是 所 有 的 应 用 都 支持 所 有 这 些 等 级 ， 请 参阅 第 14 章 中 的 详细 介绍 。 这 个 格式 同时 包含 了 
与 视频 相关 的 音频 信号 。 其 他 的 视频 格式 包括 AVI, FLI 和 QuickTime。AVI 支 持 压 缩 
(CinePac) ， 这 点 和 Apple 公司 开发 的 QuickTime 是 相同 的 。 和 MPEG 相同 ， 这 些 格式 也 都 
包含 了 音频 信息 。 


6.3.3 图 形 和 虚拟 现实 
对 于 三 维 图 形 也 有 很 多 种 格式 。 尽 管 这 个 主题 并 不 是 和 信息 检索 完全 相关 ， 但 为 了 讨论 
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的 完整 性 ， 我 们 也 包含 了 一 些 相 关 的 内 容 。 尽 管 有 很 多 的 提议 ， 但 是 我 们 这 里 的 侧重 点 主要 
放 在 Web 上 。 

为 了 公开 交换 结构 化 图 形 对 象 以 及 相关 属性 ， 人 们 定义 了 计算 机 图 形 元 文件 (Comput- 
er Graphics Metafile, CGM) 标准 (ISO 8632)。CGM 定义 了 一 个 二 维 数据 交换 标准 ， 这 个 
标准 使 得 图 形 数据 以 与 设备 无 关 的 方式 在 不 同 的 图 形 设备 、 应 用 和 计算 机 系统 中 存储 和 交 
换 。CGM 是 一 个 结构 化 的 格式 ， 它 可 以 表示 矢量 图 形 (vector graphics) 〈 比 如 多 线段 或 者 
iB). SEMA (raster graphics) 以 及 文本 。 尽 管 最 初 CGM 是 一 个 矢量 图 形 格 式 ， 但 它 
已 经 扩展 了 光栅 能 力 并 提供 了 一 个 非常 有 用 的 格式 可 以 综合 光栅 和 矢量 图 形 。CGM 元 文件 
是 一 些 元 素 的 集合 。 这 些 元 素 可 能 是 图 形 的 几何 部 件 ， 比 如 多 线段 (polyline) 或 者 多 边 形 ; 
这 些 部 件 的 外 观 ; 怎样 解释 特定 的 元 文件 或 者 特定 的 图 片 。CGM 标准 指定 了 哪些 元 素 可 以 
出 现在 元 文件 的 哪些 位 置 。 

虚拟 现实 建 模 语言 (Virtual Reality Modeling Language, VRML) (ISO/IEC 14772-1) 
是 描述 交互 式 3D 物体 和 世界 的 文件 格式 ， 也 是 Silicon Graphics 公司 OpenInventor 文件 格 
式 的 一 个 子 集 。VRML 还 是 3D 图 形 和 多 媒体 的 通用 交换 格式 。VRML 可 以 用 在 很 多 应 用 
领域 中 ， 比 如 工程 和 科学 可 视 化 、 多 媒体 展示 、 娱 乐 与 教育 、 网 页 以 及 共享 虚拟 世界 。 
VRML 已 经 成 为 Web 事实 上 的 标准 建 模 语言 。 

在 6.4.3 和 6.4.5 节 中 ,我 们 将 涉及 与 图 像 和 多 媒体 相关 的 标记 语言 (markup lan- 


guage) 。 


6.4 标记 语言 

标记 被 定义 为 额外 的 文本 语法 ， 用 来 描述 格式 行为 、 结 构 信 息 、 文 本 语义 和 属性 等 。 例 
如 ，TeX( 一 个 流行 的 文本 排版 软件 ) 的 格式 命令 就 可 以 看 做 是 标记 。 然 而 ， 正 式 的 标记 语 
言 是 更 加 结构 化 的 ， 这 些 标记 Cmark) 被 称 为 标签 (tag)， 并 且 为 了 防止 混淆 会 有 一 个 开始 
和 结束 的 标签 包围 着 被 标记 的 文本 。 标 准 的 标记 元 语言 是 已 经 提 过 到 的 SGML. SGML 的 
一 个 重要 的 子 集 就 是 Web 的 元 语言 可 扩展 标记 语言 (eXtensible Markup Language, 
XML). Web 使 用 的 标准 标记 语言 是 超 文本 标记 语言 (Hyper Text Markup Language, 
HTML), 它 也 是 SGML 的 一 个 特例 ， 但 是 最 新 的 版 本 也 和 XML KAT. MAREWA., 
包括 它们 的 实例 会 在 随后 进行 讨论 。 





6. 4. 1 SGML 


标准 通用 标记 语言 (Standard Generalized Markup Language, SGML) (ISO 8879) 是 
Goldfarb[ 633] 领导 的 小 组 基于 IBM 的 早期 工作 开发 的 一 个 标记 文本 的 元 语言 。SGML 提 
供 了 一 套 基 于 标签 来 定义 标记 语言 的 规则 。 每 个 SGML 实例 都 包括 文档 的 结构 描述 ， 称 
为 文档 类 型 定义 (document type definition), AIE, SGML 文档 通过 下 面 两 个 部 分 进行 定 
X: D 文档 结构 的 描述 ; 2〉 用 描述 结构 的 标签 所 标记 的 文本 。 后 面 会 阐述 标签 对 应 的 
语法 。 

文档 类 型 定义 用 来 描述 和 命名 构成 文档 的 那些 片段 并 定义 这 些 片 段 是 如 何 彼此 相关 的 。 
一 部 分 定义 可 以 用 SGML 文档 类 型 声明 (document type declaration) 或 DTD 指定 。 另 一 部 
分 不 能 用 SGML 正式 地 表达 ， 比 如 元 素 和 属性 的 语义 或 者 应 用 的 协议 , 但 可 以 利用 注释 非 
正式 地 表达 。 这 意味 着 所 有 将 SGML 标签 应 用 到 文档 的 规则 是 定义 的 一 部 分 ， 并 且 可 以 表 
示 为 SGML 语法 的 那 部 分 在 DTD 中 表示 出 来 。DTD 没有 定义 标签 的 语义 〈 也 就 是 ， 意 义 、 
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描述 和 行为 或 预期 用 途 。 然 而， 有 些 语义 信息 可 以 内 髓 在 DTD 的 注释 中 ， 而 更 完整 的 信 
息 通 常 可 以 在 单独 的 文件 中 描述 。 这 个 单独 的 文件 通常 描述 元 素 (或 称 数据 的 逻辑 片段 〉 以 
及 这 些 数据 片段 的 属性 及 其 他 人 信息。 例如， 两 个 标签 可 能 有 相同 的 命名 但 是 在 不 同 的 应 用 中 
可 能 会 有 不 同 的 语义 。 

标签 用 尖 括 号 〈<tagname>) 来 表示 。 标 签 用 来 指定 文档 片段 的 开始 和 结束 ， 好 比 文学 
文本 中 的 引号 。 属 性 在 元 素 的 开始 指定 ， 在 结束 标签 名 字 前 面 加 一 个 斜 线 (N<\tagname> ) 
来 指明 标签 的 结束 。 例 如 ， 标 签 <\author 之 可 以 用 来 指明 “作者 的 姓名 ”这 个 元 素 ， 这 个 
元 素 以 斜体 形式 出 现 并 产生 一 个 指向 传记 的 链接 。 标 签 属性 在 尖 括 号 里 定义 ， 属 性 跟 在 标签 
名 后 面 以 attname= value 的 语法 形式 出 现 。 

图 6-2 给 出 了 一 个 简单 的 DTD 定义 以 及 一 个 使 用 它 的 文档 。 尽 管 我 们 这 里 不 打算 讨论 
SGML 的 语法 ， 但 是 我 们 会 提供 一 个 对 例子 的 概要 描述 ， 使 读者 可 以 理解 其 主要 思想 。 每 





<!--SGML DTD for electronic messages --> 


<!ELEMENT e-mail - - (prolog, contents) > 
<!ELEMENT prolog - - (sender, addresst+, subject?, Cc*) > 
<!ELEMENT (sender | address | 

subject | Cc) - D (#PCDATA) > 
<!ELEMENT contents - - (par | image | audio)+ > 
<!ELEMENT par ~ D (ref | #PCDATA)+ > 
0 





<!ELEMENT ref - O EMPTY > 
<!ELEMENT (image | audio) - C#NDATA) > 
<!ATTLIST e-mail 
id ID #REQUIRED 
date_sent DATE #REQUIRED 
status (secret | public ) public > 
<!ATTLIST ref 
id IDREF #REQUIRED > 
<!ATTLIST (image | audio ) 
id ID #REQUIRED > 


<!--Example of use of previous DTD--> 

<!DOCTYPE e-mail SYSTEM "e-mail.dtd"> 

<e-mail id=94108rby date_sent=02101998> 

<prolog> 

<sender> Pablo Neruda </sender> 

<address> Federico Garcia Lorca </address> 

<address> Gabriel Garcia Marquez </address> 

<subject> Pictures of my house in Isla Negra 

<Cc> Ernest Hemingway </Cc> 

</prolog> 

<contents> 
<par> 
As promised in my previous letter, I am sending two digital 
pictures to show you my home and the view full of light of 
the Pacific Ocean from my bedroom (photo <ref idref=F2>). 
</par> 
<image id=Fi> "photol.gif" </image> 
<image id=F2> "photo2. jpg" </image> 
<par> 
Regards from the South, Pablo. 

</contents> 

</e~-mail> 











图 6-2 结构 化 电子 邮件 的 DTD 以 及 使 用 实例 
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个 ELEMENT 定义 了 一 个 标签 和 对 应 的 名 字 。 后 面 的 两 个 字符 表明 开始 和 结束 的 标签 是 强 
HE O 或 者 是 可 选 的 〈o) 。 例 如 prolog 的 结束 标签 是 必需 的 ， 而 sender 的 结束 标签 并 不 
是 必需 的 。 接 着 ， 用 正则 表达 式 风 格 的 语法 定义 标签 的 内 部 内 容 ， 如 “,” 表 示 连 结 ，“|” 
表示 逻辑 或 ,“?” 表 示 前 面 的 元 素 0 次 或 者 1 次 出 现 ,， “* ”表示 前 面 的 元 素 0 次 或 多 次 出 
现 ,“ 十 ”代表 之 前 的 元 素 1 次 或 者 多 次 出 现 。 内 容 标 签 可 以 由 其 他 标签 内 容 、ASCII 字符 
(PCDATA) 或 者 二 进 制 数据 (NDATA) 组 合 而 成 ; 或 者 是 空 CEMPTY). 。 可 能 的 标签 属 
性 由 标签 名 字 表 示 的 属性 列表 (ATTLIST) 中 给 定 ， 后 面 是 每 个 属性 的 名 字 、 属 性 的 类 型 
以 及 它 是 否 必须 存在 〈 和 否则 ， 将 会 给 定 一 个 默认 值 )。 当 SGML 文档 实例 使 用 DTD 时 ， 处 
理 这 个 数据 的 各 种 工具 知道 哪些 是 正确 的 标签 以 及 它们 的 组 织 方式 。 

这 个 文档 描述 一 般 并 没有 指定 文档 应 该 怎样 打印 在 纸 上 或 者 显示 在 屏幕 上 。 因 为 
SGML 将 内 容 和 格式 分 离开 来 ， 我 们 可 以 创建 很 好 的 数据 模型 ， 而 不 用 考虑 如 何 描述 它 的 
格式 ， 也 没有 一 个 标准 的 格式 来 输出 数据 。 因 此 ， 作 为 输出 文档 指南 的 输出 规范 (output 
specification) 经 常 被 加 入 到 SGML 文档 中 。 为 此 ， 人 们 设计 了 输出 规范 标准 ， 如 文档 样式 
语义 和 规范 语言 (Document Style Semantic Sepcification Language，DSSSL) 以 及 格式 输出 
规范 实例 (Formatted Output Sepcification Instance，FOSI) 。 两 个 标准 都 定义 了 格式 信息 
和 SGML 文档 实例 的 关联 机 制 。 它 们 是 SGML 文档 系统 的 一 部 分 ， 例 如 它们 可 以 定义 某 个 
标签 标注 的 数据 应 该 以 斜体 输出 。 

一 个 重要 的 SGML 应 用 是 文本 编码 先导 计划 (Text Encoding Initiative，TEI)。TEI 是 
由 美国 多 个 人 类 学 和 语言 学 的 相关 协会 在 1987 年 开始 的 一 个 合作 项 目 。 这 个 项 目的 主要 目 
的 是 为 学 术 研究 和 工业 应 用 中 的 电子 文本 的 准备 和 交换 提供 指导 。 除 了 指导 ，TEI 还 通过 
SGML DTD 提供 了 多 个 文档 格式 。 其 中 最 常用 的 一 个 是 TEI Lite, TEI Lite DTD 可 以 单独 
使 用 或 者 与 全 部 的 TEL DTD 文件 一 起 使 用 。 


6.4.2 HTML 


超 文 本 标记 语言 (HyperText Markup Language, HTML) 也 是 SGML 的 一 个 实例 。 
HTML 在 1992 年 提出 并 在 过 去 的 几 年 里 迅速 发 展 ，1999 年 年 底 发 布 的 4.01 版 是 其 最 新 的 
WE. ME HTML 仍然 不 断 改进 以 解决 它 的 多 种 局 限 ， 例 如 不 允许 数学 公式 的 定义 。 即 使 
有 这 样 的 局 限 ， 但 在 Web 上 的 大 部 分 文档 仍然 是 以 HTML 存储 和 传输 的 。 虽 然 有 一 些 历 史 
原因 ， 但 我 们 也 应 该 记 住 HTML 是 一 种 简单 的 语言 ， 适 合 超 文 本 、 多 媒体 以 及 小 而 简单 的 
文档 显示 。 

HTML 基于 SGML, 虽然 HTML 也 有 一 个 HTML 文档 类 型 定义 (Document Type 
Definition，DTD) ， 但 是 大 多 数 的 HTML 实例 都 不 会 显 式 地 引用 DTD. HTML 标签 遵循 
所 有 的 SGML 约定 ， 也 包含 了 格式 指南 。 

HTML 文档 里 可 以 嵌 人 其 他 媒体 ， 比 如 不 同 格式 的 图 像 或 者 音频 。HTML 也 有 一 些 元 
数据 的 字段 ， 可 以 用 于 不 同 的 应 用 和 目的 。 如 果 在 页 面 中 加 入 程序 〈 比 如 JavaScript 程序 )， 
即 通常 所 说 的 动态 HTML( 或 DHTML)。 注 意 不 要 把 这 个 概念 和 Microsoft 公司 的 一 个 协议 
(也 称 为 动态 HTML) 混淆 ， 这 个 协议 是 一 个 用 来 读 取 和 操作 HTML 文档 的 应 用 程序 编程 
接口 (Application Programming Interface，API)。 图 6-3 给 出 了 一 个 HTML 文档 的 实例 以 
及 它 在 Web 浏览 器 中 的 输出 。 
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<html> 

<head> 

<title>HTML Example</title> 

<meta name=rby content="Just an example"> 

</head> 

<body> 

<hi>HTML Example</h1> 

<p> 

<hr> 

<p> 

HTML has many <i>tags</i>, among them: 

<ul> 

<li>links to other <a href=http://www.w3c.org/>pages</a> (a=anchor), 
<li>paragraphs (p), headings (h1, h2, etc), font types (b, i), 
<li> horizontal rules (hr), indented lists and items (ul, li), 
<li> images (img), tables, forms, etc. 

</ul> 

<p> 

<hr> 

<p> 

<img align=left src="at_work.gif"> 

This page is <b>always</b> under construction. 

</body> 

</html> 











HTML Example 


HTML has many tags, among them: 


e links to other pages (a from anchor), 


e paragraphs (p), headings (hl h2, etc), font types (b, i), 
a horizontal rules (hr), indented lists and items (ul, li), 
e images (img), tables, forms, etc. 


© This page is always under construction. 


图 6-3 HTML 文档 的 例子 以 及 在 浏览 器 中 的 效果 


因为 HTML 没有 固定 文档 的 展示 样式 ， 所 以 层 合 样式 表 (Cascade Style Sheet, CSS) 
在 1997 年 引入 。CSS 给 作者 、 艺 术 家 以 及 印刷 商 提供 了 一 个 强大 的 、 可 操控 的 创建 视觉 效 
果 的 方式 ， 以 增强 Web 上 的 HTML 网 页 的 美感 。 样 式 表 (style sheet) 可 以 一 个 紧 跟 另 一 
A RAER) 地 使 用 ， 以 定义 HTML 页 面 的 不 同 元 素 的 显示 样式 。 样 式 表 将 展示 信息 
与 文档 内 容 分 离开 来 ， 简 化 了 网 站 的 维护 ， 加 强 了 网 页 的 可 访问 性 ， 并 且 加 快 了 Web 的 速 
度 。 另 一 方面 ， 在 当前 的 浏览 嚣 中 对 CSS 的 支持 还 是 有 限 的 。 另 外 一 个 缺点 是 两 个 样式 表 
并 不 一 定 要 求 一 致 或 完整 ， 因 此 样式 的 结果 可 能 并 不 好 ， 特 别 是 在 颜色 方面 。CSS 用 来 在 作 
者 和 读者 对 展示 方面 的 不 同 预期 中 建立 平衡 。 然 而 ， 它 却 不 能 确定 在 什么 情况 下 由 作者 还 是 
读者 来 定义 展示 样式 。 

HTML 的 发 展 意味 着 它 不 但 支持 向 后 兼容 而 且 支 持 向 前 兼容 ， 因 为 人 们 可 能 也 需要 利 
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用 旧 的 浏览 器 来 看 新 的 文档 。HTML 4.0 被 设计 成 三 种 : 严格 的 Strict)、 过 渡 的 《Tran- 
sitional) MHE A (Frameset), Strict HTML 只 关心 与 展示 无 关 的 标签 ， 而 将 所 有 的 
展示 信息 都 留 给 CSS Ab, Transitional HTML 利用 所 有 的 页 面 展示 特征 使 得 其 可 以 被 不 
支持 CSS 的 旧 浏 览 器 读 取 。Frameset HTML 用 于 需要 将 浏览 器 窗口 分 割 为 两 个 或 者 更 多 个 
框架 的 时 候 。HTML 4. 0 包含 了 对 样式 表 、 国 际 化 、 框 架 、 更 丰富 的 表格 和 表单 ， 以 及 为 
残疾 人 士 设 计 的 辅助 功能 选项 的 支持 。 

典型 的 HTML 应 用 采用 了 一 个 小 的 固定 标签 集合 ， 这 些 标签 符合 SGML 规范 。 小 的 固 
定 标签 集合 使 得 用 户 可 以 不 把 语言 规范 放 在 文档 中 ， 也 使 得 创建 应 用 程序 变 得 容易 ， 但 是 这 
个 优点 的 代价 是 HTML 在 某 些 重 要 方面 的 严格 限制 。 特 别 是 ，HTML: 

。 不 允许 用 户 为 了 参数 化 或 语义 地 描述 它们 的 数据 而 指定 自己 的 标签 和 属性 。 

。 不 支持 用 于 表示 数据 库 模 式 或 面向 对 象 层次 结构 的 授 套 结构 规范 。 

。 不 支持 允许 应 用 程序 检查 数据 结构 合法 性 的 语言 规范 。 

对 比 HTML, 一 般 的 SGML 应 用 能 支持 任意 复杂 度 的 SGML 语言 规范 ， 从 而 使 得 扩 
展 、 结 构 表 示 以 及 校 验 都 成 为 可 能 ， 而 这 些 都 是 HTML 所 缺少 的 。 为 了 能 够 处 理 大 量 的 复 
杂文 档 ， 从 而 管理 大 型 信息 资源 库 ，SGML 允许 用 户 为 他 们 的 文档 定义 自己 的 格式 。 然 而 ， 
完整 的 SGML 包含 了 很 多 对 于 Web 应 用 没有 必要 的 额外 特性 ， 并 且 证 明 对 于 当前 的 Web 
浏览 器 开发 商 其 “成 本 /效益 ” 比 并 不 具有 了 吸引 力 。 所 有 这 些 因 素 导 致 了 XML WER, 
XML 是 一 种 比较 简单 的 元 语言 ， 将 在 下 一 节 中 讲述 。 

HTML 的 发 展 有 两 条 不 同 的 路 线 。 第 一 条 是 XTHML 1， 这 是 一 个 和 XML( 见 6. 4.3 
节 ) HAW HTML 版 本 ， 其 上 一 个 推荐 版 本 在 2002 年 发 布 。 之 后 ， 提 出 了 XHTML 2( 上 
一 个 草案 是 从 2006 年 开始 的 ) 。XHTML 2 创建 了 一 个 体系 架构 ， 并 与 XML 相 兼 容 ， 向 成 
为 Web 技术 的 主要 语言 迈进 了 一 大 步 。 另 一 条 路 线 是 最 近 被 提出 的 X/HTML 5， 它 是 HT- 
ML 4 和 XHTML 1 的 扩展 。 它 是 一 个 增 量 式 的 进步 ， 目 的 是 解决 HTML 4 和 XHTML 1 
的 很 多 弊端 。 特 别 是 ，XVHTML 5 可 以 用 做 HTML 或 者 XML， 这 取决 于 标记 在 当前 如 何 
被 使 用 。 


6.4.3 XML 


可 扩展 标记 语言 (eXtensible Markup Language, XML) 是 SGML 的 一 个 精简 集 。 也 
就 是 说 ，XML 和 SGML 都 是 一 种 元 标记 语言 。XML 允许 使 用 可 读 的 语义 标签 ， 这 些 标签 
也 是 机 器 可 读 的 。 因 此 ，XML 使 得 开发 和 部 署 新 的 特定 标记 变 得 容易 ， 从 而 能 够 自动 地 编 
写 、 分 析 和 处 理 网 络 数据 。 在 某 种 意义 上 ，XML 实现 了 很 多 原本 用 Java 脚本 或 者 其 他 程序 
接口 实现 的 功能 。 

XML 不 像 HTML 那样 强加 了 很 多 限制 。 但 是 ，XML 提出 了 一 个 更 严格 的 标记 语法 ， 
这 个 语法 在 处 理 阶 段 非常 重要 。 在 XML 中 ， 结 束 标签 不 能 省 略 。 对 于 没有 任何 内 容 的 标 
签 ， 比 如 BR 和 IMG， 也 需要 在 尖 括 号 结束 前 标 上 “/” 以 特殊 标识 。XML 也 区 分 大 小 写 ， 
所 以 img 和 IMG 是 不 同 的 两 个 标签 CE HTML 中 不 是 这 样 ) 。 另 外 ， 所 有 的 属性 值 都 必须 
在 引号 中 。 这 也 意味 着 我 们 在 不 知道 标签 信息 的 情况 下 可 以 比较 容易 地 解析 XML。 特 别 是 ， 
当 DTD 是 可 选 的 。 如 果 没 有 DTD， 分 析 结 束 后 才 会 获得 标签 。 与 SGML 相 比 ，XML 在 语 
法 上 有 些 不 同 并 有 很 多 限制 。 列 出 所 有 这 些 不 同 超出 了 本 书 的 范围 ， 但 是 图 6-4 展示 了 一 个 
没有 DTD 的 XML 的 例子 ， 这 个 XML 文档 基于 之 前 的 SGML 电子 邮件 DTD( 参 见 图 6-2). 
RMD 属性 表示 请 求 标 记 声 明 (Required Markup Declaration) ， 指 示 是 否 必须 使 用 DTD( 在 
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这 个 例子 中 没有 使 用 DTD)。 其 他 可 能 的 值 是 INTERNAL， 意 味 着 DID 文件 在 文档 内 部 ; 
以 及 缺 省 值 ALL， 它 允许 像 SGML 一 样 使 用 外 部 资源 作为 部 分 (或 者 全 部 ) 的 DTD. 


<?XML VERSION="1.0" RMD="NONE" ?> 
<e-mail id="94108rby" date_sent="02101998"> 
<prolog> 
<sender> Pablo Neruda </sender> 
<address> Federico Garcia Lorca </address> 
<address> Gabriel Garcia Marquez </address> 
<subject> Pictures of my house in Isla Negra</subject> 
<Cc> Ernest Hemingway </Cc> 
</prolog> 
<contents> 
<par> 
As promised in my previous letter, I am sending two digital 
pictures to show you my home and the view full of light of 
the Pacific Ocean from my bedroom (photo <ref idref="F2"/>). 
</par> 
<image id="Fi" ref="photol.gif" /> 
<image id="F2" ref="photo2.jpg" /> 
<par> 
Regards from the South, Pablo. 
</par> . 
</contents> 
</e-mail> 











图 6-4 与 图 6-2 相似 的 不 带 DTD 的 XML 文档 


XML 允许 用 户 定义 新 的 标签 ， 定 义 更 加 复杂 的 结构 (如 利用 与 SGML 相同 规则 的 无 限 
HE) 并 且 加 入 了 数据 校 验 能 力 。 尽 管 XML 比较 新 ， 但 仍然 有 一 些 关 于 XML 如 何 改 变 或 
影响 互联 网 应 用 的 讨论 。XML 是 SGML 的 一 个 简化 版 ， 它 除去 了 很 多 难以 实现 的 东西 ， 因 
此 对 于 大 部 分 情况 它 和 SGML 是 一 样 的 。 像 之 前 提 到 的 ，XML 除去 了 DTD 必须 存在 的 限 
制 ，DTD 可 以 直接 从 数据 中 分 析 得 到 。 删 除 DTD 提高 了 应 用 程序 文档 的 重要 性 。 这 对 软件 
提供 的 功能 有 很 大 的 影响 。 例 如 ， 如 果 一 个 XML 编辑 不 使 用 DTD， 怎 样 帮助 用 户 一 致 地 标 
记 文 档 呢 ? 这 些 问 题 都 应 当 在 不 久 的 将 来 得 到 解决 。 在 标签 名 字 之 间 有 语义 歧义 的 情况 下 ， 
可 以 使 用 命名 空间 (namespace) 来 保证 它 的 使 用 约定 。 

可 扩展 样式 表 语 言 (Extensible Style sheet Language, XSL) 是 XML 对 应 的 层 伙 样式 
表 (Cascading Style Sheets, CSS), XSL 用 来 对 高 度 结构 化 和 丰富 数据 的 XML 文档 进行 转 
换 和 样式 设计 。 例 如 ， 利 用 XSL 可 以 从 文档 中 自动 抽取 目录 。XSL 的 语法 利用 XML 定义 。 
除了 利用 向 文档 中 添加 格式 的 功能 外 ，XSL 还 能 够 用 来 将 XML 转化 为 HTML 和 CSS x 
档 。 这 类 似 于 文字 处 理工 具 中 的 宏 。 

可 扩展 链接 语言 (Extensible Linking Language, XLink) 是 XML 的 另外 一 个 扩展 ， 也 
是 用 XML 定义 的 。XLink 定义 了 不 同类 型 的 链接 ， 包 括 外 部 链接 和 内 部 链接 。 特 别 是 ， 任 
何 元 素 类 型 都 可 以 作为 链接 源 ， 外 部 链接 可 以 定义 在 不 能 修改 的 文档 上 。 链 接 的 行为 也 是 一 
般 化 的 。 链 接 对 象 可 以 笠 和 人 或 者 代替 文档 。 也 有 可 能 在 不 改变 当前 应 用 的 情况 下 产生 一 个 新 
的 上 下 文 〈 例 如 ， 在 一 个 新 的 窗口 中 显示 对 象 ) 。 

另外 一 个 扩展 是 XML 指针 语言 (XML Pointer Language, XPointer), XPointer 是 对 
URI 引 用 的 片段 标识 符 ， 这 个 URI 引用 可 以 定位 互联 网 上 XML 类 型 的 媒体 资源 。XPointer 
基于 XML 路 径 语言 (XML Path Language, XPath) (W, 13. 6. 3 节 )， 用 来 标识 XML 文档 
的 内 部 结构 。 它 允许 通过 多 个 属性 对 层次 结构 的 文档 进行 检查 并 选择 内 部 片段 ， 这 些 属性 包 
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括 元 素 类 型 、 属 性 值 、 字 符 内 容 以 及 相对 位 置 。 
另外 一 个 与 XML 相关 的 组 件 是 文档 对 象 模 型 (Document Object Model, DOM). 
DOM 是 一 个 与 平台 及 语言 无 关 的 接口 ， 它 允许 软件 动态 地 读 取 并 更 新 文档 的 内 容 、 结 构 和 
格式 。 文 档 可 以 被 进一步 处 理 并 且 可 以 把 处 理 结果 合并 到 当前 的 页 面 。 也 就 是 说 ，DOM 提 
供 了 一 个 可 互 操作 的 类 和 方法 的 集合 ， 例 如 Java 等 编程 语言 中 的 HTML 和 XML 的 对 象 。 
XML 的 重要 应 用 包括 : 
。 数学 标记 语言 (Mathematical Markup Language, MathML): 两 个 标签 的 集合 ， 一 
个 用 于 数学 公式 的 显示 ， 另 外 一 个 是 数学 表达 式 的 含义 。 
。 MARCXML: 一 个 基于 MARC21 风格 的 书目 MARC 标准 的 XML 模式 。 它 是 美国 
国会 图 书馆 (US Library of Congress) 开发 的 ， 并 且 被 美国 国会 图 书馆 和 其 他 组 织 
采用 作为 分 享 和 网 络 获取 书目 信息 的 手段 。 由 于 它 很 容易 被 各 种 系统 分 析 ， 因 此 它 
可 以 用 做 聚合 格式 。 这 个 模式 旨 在 以 灵活 和 可 扩展 的 方式 使 用 户 根据 需求 独特 地 使 
用 MARC 数据 ， 它 包括 很 多 的 组 件 ， 比 如 模式 、 样 式 表 和 软件 工具 。 
。 Web 服务 描述 语言 (Web Services Description Language, WSDL): 一 个 基于 XML 
的 语言 ， 用 来 描述 网 络 服务 。 网 络 服务 是 指针 对 面向 文档 或 者 面向 过 程 的 信息 的 一 
系列 操作 代理 。 这 些 操作 和 信息 被 抽象 地 描述 ， 并 被 具体 的 网 络 协议 和 信息 格式 约 
R, Mite CARH. PE WSDL 是 为 了 使 得 代理 及 其 信息 描述 与 具体 使 用 什么 样 的 
网 络 协议 无 关 ， 如 SOAP, HTTP 或 MIME, 
。 可 缩放 矢量 图 形 (Scalable Vector Graphics, SVG): 使 用 XML 描述 二 维 图 形 和 图 
形 应 用 。SVG 可 以 作为 网 页 浏览 的 交换 格式 ， 也 可 以 作为 交互 式 的 多 媒体 平台 ， 并 
且 也 可 以 是 可 持续 Web 的 一 个 主要 部 分 。 一 个 有 趣 的 特性 是 ， 在 SVG 中 的 文本 并 
不 只 是 图 形 ， 而 是 可 以 被 搜索 和 选择 的 。 最 近 ， 到 3C 发 布 了 SVG 的 一 个 子 集 SVG 
Tiny， 用 于 移动 应 用 和 其 他 的 能 入 式 多 媒体 系统 。 这 个 版 本 已 经 被 广泛 地 应 用 到 移 


动 电话 中 。 
。 墨水 标记 语言 (Ink Markup Language，InkML):， 一 个 用 来 表示 电子 墨水 数据 的 
XML 数据 格式 ， 电 子 墨 水 数据 是 多 模 态 系统 中 电子 笔 的 输入 。 这 个 格式 用 来 在 设备 


和 软件 之 间 传 递 数字 墨水 数据 ， 为 手写 体 识 别 、 签 名 认证 和 姿势 识别 存储 手写 痕迹 。 

XML 的 发 展 预示 着 可 分 析 的 层次 化 对 象 模型 将 会 在 HTML 的 发 展 中 扮演 越 来 越 重 要 

的 角色 。 下 一 代 HTML 可 能 会 基于 XML 的 标签 集合 ， 用 来 标识 数学 、 同 步 多 媒体 和 矢量 

图 像 (可 能 使 用 已 经 提 到 的 基于 XML 的 语言 ;。 这 也 意味 着 对 数据 结构 化 和 建 模 成 为 重点 ， 
而 不 是 数据 显示 和 布局 。 在 第 13 章 中 ， 我 们 将 详细 地 讨论 XML 检索 。 


6.4.4 RDF 


资源 描述 框架 «(Resource Description Framework, RDF) 最 初 被 设计 为 元 数据 数据 模 
型 (在 6. 2 节 中 提 到 ) 的 一 系列 规范 。 然 而 ， 现 在 它 已 经 成 为 采用 一 系列 语法 格式 对 Web 
资源 的 概念 性 描述 (conceptual description) 和 建 模 的 普遍 方法 。 实 际 上 ， 它 已 经 是 语义 网 
(Semantic Web) 事实 上 的 标准 语言 。 

RDF 数据 模型 与 实体 关系 (Entity-Relationship) 和 和 类 (Class) 图 等 经 典 的 概念 建 模 方 
法 类 似 。 这 个 模型 基于 这 样 的 想法 ， 利 用 主语 -谓词 -宾语 的 三 元 组 对 资源 进行 陈述 ， 特 别 是 
Web 资源 。 主 语 表 示 资 源 ， 谓 词 是 资源 的 属性 并 表示 主语 和 宾语 的 关系 。 例 如 ,在 RDF 中 
表示 “The Chilean flag has the red color” 的 概念 利用 了 如 下 的 三 元 组 : 主语 是 “the Chil- 
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ean flag”， 谓 词 是 “has the color”, iff “red”, 

RDF 语句 集 是 一 个 带 标签 的 、 有 向 多 边 图 。 正 因为 如 此 ，RDF 比 某 些 传统 模型 CX 
系 模 型 和 本 体 模 型 ) 更 适合 表达 特定 类 型 的 知识 。RDF 数据 经 常 存储 在 关系 数据 库 中 ， 或 
者 存储 在 称 为 三 元 组 存储 〈Triplestores) 、 四 元 组 存储 (Quad-stores) 的 原生 表示 中 。 在 四 
元 组 存储 中 ， 上 下 文 信息 (命名 图 ) 也 被 存储 。 

用 来 描述 资源 的 方法 是 语义 网 (Semantic Web) 活动 的 一 个 主要 部 分 ， 这 是 Web 的 一 
个 进化 阶段 ， 在 这 个 阶段 中 ,软件 可 以 存储 、 交 换 和 使 用 Web 上 发 布 的 机 读 信 息 ， 这 使 得 
用 户 能 够 高 效率 和 可 靠 地 处 理 信息 。RDF 的 简单 数据 模型 和 对 抽象 概念 建 模 的 能 力也 使 得 
它 可 以 应 用 到 其 他 的 知识 管理 应 用 中 。 

资源 描述 框架 模式 (The RDF Schema, RDFS) 是 一 个 扩展 知识 表示 语言 ， 它 给 出 了 
用 来 描述 本 体 的 基本 元 素 ， 也 称 为 RDF 词汇 ， 用 来 构建 RDF 资源 。 很 多 RDFS 组 件 包 括 在 
更 具 表 达 力 的 语言 一 一 互联 网 本 体 语 言 (Web Ontology Language, OWL) H. OWL 是 一 
系列 用 来 创建 本 体 的 知识 表示 语言 ， 也 被 W3C 所 认证 。OWL 建立 在 两 个 几乎 完全 兼容 的 
语义 上 ; 1) OWL DL 和 OWL Lite; 2) OWL Full。 前 一 组 基于 描述 逻辑 (Description 
Logic) ， 描 述 逻 辑 具 有 吸引 人 的 并 且 容 易 理解 的 计算 属性 。OWL Full 使 用 一 个 试图 和 
RDFS 保持 兼容 的 语义 模型 。OWL 定义 的 本 体 通 常 利 用 RDF/XML 序列 化 。 正 如 RDFS 和 
OWL 所 证 明 的 ， 附 加 的 本 体 语言 可 以 是 基于 RDF 构建 的 〈 见 第 17 章 ) ， 正 因为 这 个 原因 ， 
OWL 看 做 是 语义 网 背后 的 一 项 基础 技术 。 


6.4.5 HyTime 


超 媒 体 / 基 于 时 间 的 结构 语言 (Hypermedia/Time-based Structuring Language, Hy- 
Time) 是 定义 多 媒体 文档 标记 的 标准 (ISO/IEC 10744), HyTime 是 规定 文档 通用 超 媒 体 
结构 的 SGML 架构 。 根 据 SGML 的 指导 原则 ，HyTime 定义 的 结构 与 要 表示 的 编码 文档 相 
互 独 立 。 作 为 一 个 架构 ，HyTime 允许 为 每 个 使 用 HyTime 结构 的 文档 模型 编写 DTD, 
DTD 指明 了 这 些 文档 集 如 何 修改 这 些 结构 用 于 它们 特殊 的 表示 需求 。 这 个 标准 也 提供 了 多 
种 元 DTD 用 来 方便 新 的 多 媒体 标记 语言 的 设计 。 

直接 使 用 HyTime 表示 的 超 媒体 内 容 包 括 ， 

。 文档 对 象 的 复杂 定位 。 

。 文档 对 象 之 间 的 关系 〈 超 链接 ) 。 

。 文档 对 象 之 间 数 值 的 、 可 度量 的 关联 。 

HyTime 架构 包括 三 个 部 分 : 基本 的 链接 和 定位 架构 、 调 度 架 构 〈 从 基本 架构 演变 的 ) 
和 生成 架构 〈 这 是 调度 架构 的 一 个 应 用 ) 。 基 本 架构 处 理 超 链接 的 语法 和 语义 。 对 于 最 简单 
的 超 媒体 表示 ， 这 些 应 该 足够 了 。HyTime 的 调度 模块 定义 了 包括 音乐 和 交互 表示 在 内 的 复 
杂 超 媒体 结构 的 抽象 表示 。 它 的 基础 技术 是 一 个 比较 简单 的 技术 : 时 间或 空间 轴 上 的 对 象 容 
器 序列 。 生 成 模块 是 一 个 调度 架构 的 应 用 ， 它 通过 不 同类 型 的 “生成 规则 ”， 定 义 如 何 从 已 
有 调度 中 创建 出 新 的 调度 。 

HyTime 并 没有 直接 指定 图 形 接口 、 用 户 导航 、 用 户 交 互 或 者 在 时 间 轴 或 屏幕 上 的 媒体 
的 布局 。 文 档 处 理 是 从 HyTime 结构 中 以 样式 表 的 方式 来 生成 的 ， 就 像 SGML 文档 那样 。 

HyTime 的 一 个 应 用 是 标准 音乐 描述 语言 (Standard Music Description Language, 
SMDL)。SDML 是 一 个 表达 音乐 信息 的 架构 ，SDML 用 来 单独 或 和 其 他 媒体 一 起 表示 音乐 
信息 ， 也 支持 多 媒体 时 序 信 息 。 另 外 一 个 应 用 是 交互 文档 元 文件 (Metafile for Interactive 
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Documents, MID), MID 是 一 个 基于 SGML 和 HyTime 的 通用 交换 结构 ， 它 以 最 少 的 人 工 
干预 从 不 同 的 创作 系统 和 结构 中 获得 数据 并 在 不 同 的 表示 系统 中 显示 。 

HyTime 的 XML 实现 是 同步 多 媒体 集成 语言 (Synchronized Multimedia Integration 
Language, SMIL), SMIL 是 一 个 用 于 规划 Web 上 多 媒体 展示 的 声明 语言 ， 可 以 控制 不 同 
对 象 出 现 的 位 置 和 时 间 。 


6.5 文本 属性 


在 本 节 中 ， 我 们 将 涉及 不 同 的 文本 特征 。 首 先 ， 我 们 讨论 如 何 度量 文本 的 信息 内 容 ， 并 
介绍 几 种 不 同 的 模型 。 我 们 同时 也 简要 地 讨论 了 怎样 度量 文本 字符 串 或 片段 之 间 的 相似 度 。 


6.5.1 信息 论 


书面 文本 是 用 来 交流 信息 的 一 个 途径 ， 因 此 总 是 包含 一 定量 的 语义 内 容 。 即 使 很 难 正式 
地 得 到 给 定 文 本 中 的 信息 量 ， 但 信息 量 和 文本 中 符号 的 分 布 情况 是 相关 的 。 例 如 ， 几 乎 只 出 
现 同一 个 符号 的 文本 不 会 表达 出 太 多 的 信息 。 我 们 可 以 利用 这 个 思路 给 不 同 的 符号 赋予 不 同 
的 位 序列 或 编码 。 

这 个 理论 是 克 劳 德 。 FK (Claude Shannon) 在 著名 的 信 源 编码 理论 [1452] 中 建立 


的 。 他 指出 ， 在 最 优 的 编码 方案 中 ， 一 个 以 期 望 概率 p 出 现 的 符号 应 该 被 赋予 长 度 为 log 5 


位 的 码 字 。 最 优 编码 的 位 数 代表 一 个 符号 的 信息 量 。 因 此 ， 我 们 可 以 通过 每 个 符号 出 现 的 概 
率 和 赋予 每 个 符号 的 码 字 定义 一 个 统计 文本 模型 。 

在 这 个 文本 模型 下 ， 文 本 TSi ot, 中 每 个 符号 的 平均 信息 量 称 为 这 个 文本 的 精 ， 其 
定义 如 下 : 


-i15 i _ 
E 一 2, log: z, (6-1) 


其 中 p; 是 这 个 模型 赋 给 符号 志 的 概率 。 值 得 注意 的 是 巨 是 通过 概率 计算 的 ， 因 此 它 不 仅 是 
文本 的 属性 ， 还 是 模型 的 属性 。 
在 比较 简单 的 情况 下 ， 这 个 模型 给 字母 表 符 号 s 赋予 一 个 概率 po TRMTURSA 


E = J, pilog, 1 > pilog: p: (6-2) 
s ES Pi i=l 


KRPLEMAWFER, 并且 c= | 二 | 。 在 这 个 公式 中 ,字母 表 中 的 c 个 符号 用 二 进 制 纺 
1, AM Bie. Pl, E052 i, MRA SHRM HR, WE 1; 而 
WMRAA-TAS HL, UE 0. MIO ARERR EAA (或 者 信息 的 不 确定 性 )， 因 
此 我 们 说 在 文本 中 的 信息 量 可 以 用 来 它 的 炉 来 衡量 。 这 个 概念 在 文本 压缩 中 也 很 重要 。 根 据 
这 个 文本 模型 ， 粹 就 是 文本 压缩 程度 的 极限 。6. 8 节 将 详细 地 讨论 文本 压缩 。 现 在 讨论 我 们 
所 关心 的 是 自然 语言 的 文本 模型 。 


6. 5.2 自然 语言 建 模 


文本 是 由 有 限 字母 表 中 的 符号 组 成 ， 字 母 表 中 的 符号 可 以 分 为 两 个 不 相交 的 子 集 : 分 隔 
单词 的 符号 ， 通 常 称 为 分 隔 符 ， 以 及 属于 单词 的 符号 。 一 个 重要 的 观察 是 这 些 符号 在 文本 中 
并 不 是 均匀 分 布 的 。 为 了 说 明 这 一 点 ， 如 果 我 们 只 考虑 字母 (a~z)， 那 么 我 们 可 以 看 到 元 
音 往往 比 大 多 数 辅音 出 现 的 频率 更 高 。 例 如 ， 在 英语 中 ， 字 母 “e” 出 现 的 频率 最 高 。 
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一 个 比较 简单 的 生成 文本 模型 是 二 项 式 模型 。 在 这 个 模型 中 ， 每 个 符号 都 以 某 个 概率 独 
立 生成 。 这 个 模型 当然 是 简化 的 ， 因 为 在 自然 语言 中 符号 之 间 是 有 依赖 关系 的 。 例 如 ， 在 英 
语 中 ， 字 母 “f” 不 能 出 现在 字母 “c” 的 后 面 ， 而 且 元 音 和 某 些 辅音 出 现 的 频率 更 高 。 因 
此 ， 一 个 符号 的 概率 依赖 于 之 前 的 一 个 符号 。 为 了 获得 这 些 依 赖 关 系 ， 我 们 可 以 使 用 有 限 上 
下 文 或 马尔 科 夫 模型 。 该 模型 利用 1、2， 或 者 更 多 个 字母 产生 下 一 个 符号 。 如 果 使 用 & 个 
字母 ， 我 们 说 这 是 一 个 & 阶 模型 〈 因 此 二 项 式 模型 可 以 看 做 是 一 个 0 阶 模型 ) 。 我 们 可 以 把 
单词 看 做 符号 并 应 用 这 些 模型 ， 正 如 在 介绍 语言 模型 的 第 3 章 中 所 讨论 的 。 例 如 ， 用 圣经 中 
词 的 分 布 统计 出 来 的 5 阶 模型 生成 的 文本 可 能 是 有 意义 的 〈 就 是 说 ， 它 可 能 在 语法 上 是 正确 
的 )， 但 是 一 定 和 原来 的 圣经 是 不 同 的 。 更 复杂 的 模型 包括 ， 定 义 了 正则 语言 的 有 限 状 态 机 
模型 ， 以 及 定义 了 上 下 文 无 关 及 其 他 类 型 语言 的 语法 模型 。 然 而 ， 找 到 自然 语言 的 合适 语法 
仍然 是 一 个 开放 的 、 困 难 的 问题 。 

另外 一 个 重要 的 问题 就 是 不 同 的 单词 是 怎样 在 每 个 文档 中 分 布 的 。 一 个 近似 的 模型 是 齐 
KEM (Zipf’s Law) [1794，649]， 它 统计 文本 中 词汇 出 现 频 率 〈 即 出 现 次 数 ) 的 分 布 。 
这 个 规则 指出 ， 出 现 次 数 最 多 的 第 i 个 词 的 频率 f; 是 第 一 个 词 的 频率 f; 的 1/z 倍 ， 其 中 
是 一 个 与 文本 相关 的 参数 。 也 就 是 


六 = 五 (6-3) 


原始 的 齐 夫 法 则 使 用 o=1, HAY a>1 的 时 候 我 们 称 之 为 广义 齐 夫 法 则 。 对 于 一 个 建 
立 在 V 个 单词 的 词汇 表 上 的 ”个 单词 的 文档 ， 我 们 可 以 得 到 : 
n= D4 panx yt 
括号 中 的 因子 仅仅 依赖 文本 参数 a MV, ERA V 的 a HMR Hva), B 
ol oon 
Hv@ = Die BA f= Ay 
齐 夫 法 则 的 一 个 直接 推论 是 ， 出 现 最 多 的 第 i 个 词 出 现 了 n/(i*Hy(a)) K. 
图 6-5 的 左 侧 展 示 了 典型 的 频率 分 布 ， 其 中 词 是 按照 频率 的 降序 排列 的 。a 的 值 依 赖 于 
文本 。 在 最 简单 的 情况 下 以 及 最 原始 的 公式 中 ,a 二 1]， 因 此 Hy (a) = 二 O(logV)。 然 而 ， 这 个 
最 简单 的 版 本 是 非常 不 准确 的 ， 而 a 这 1( 更 准确 地 说 是 在 1.5 一 2.0 之 间 ) 的 情况 更 适合 真 
实 的 数据 [65]。 这 种 情况 是 寡 律 的 一 个 例子 (参见 11. 3. 3 节 )， 但 却 非 常 不 同 ， 因 为 这 里 
的 分 布 更 加 不 均衡 ,并且 Hy(a) 二 O(1)。 实 验 数据 证 明 更 好 的 模型 是 有/(c 十 i) *， 这 里 c 是 
一 个 额外 的 参数 ，k 是 为 了 使 得 所 有 的 频率 加 起 来 等 于 n， 称 为 Mandelbrot 分 布 [1133]. 
A 


(6-4) 


F V 








— 


词 文本 大 小 
图 6-5 ” 词 频 排序 后 的 分 布 E) 和 字典 大 小 的 分 布 〈 右 ) 
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既然 词汇 的 分 布 是 非常 偏 斜 的 〈 这 是 说 几 百 个 单词 却 占 据 了 文本 中 出 现 的 词 的 50%), 
以 非常 高 的 频率 出 现 的 词 ， 例 如 禁用 词 (stopword) ， 应 该 被 忽略 掉 。 禁 用 词 是 那些 在 自然 
语言 中 并 没有 多 少 意义 的 词 ， 因 此 应 该 被 忽视 掉 〈 这 也 使 得 这 些 词 不 能 被 搜索 到 )， 例 如 
“a”、“the”、“by” 等 。 幸 运 的 是 ， 出 现 最 多 的 词 都 是 禁用 词 ， 因 此 文本 中 一 半 的 词 不 需要 
考虑 。 这 样 ， 为 自然 语言 文本 建 索 引 时 空间 开销 会 明显 减少 。 例 如 ， 在 TREC-2 文档 集 (更 
详细 地 了 解 此 文档 集 或 其 他 文档 集 参见 4. 4. 1 节 ) 中 最 多 出 现 的 词 是 “the”、"of”、"“and”、 
“a" 、“to” 和 “in”。 和 需要 注意 的 是 ， 从 索引 中 去 除 禁 用 词 可 以 使 得 索引 简洁 ， 但 是 这 是 有 
代价 的 ， 就 是 这 个 词 不 能 在 索引 中 被 搜索 到 了 。 例 如 ， 如 果 禁 用 词 都 被 从 索引 中 删除 ， 搜 索 
“The Who” 乐 队 时 可 能 就 会 失败 。 然 而 ， 这 是 在 Web 上 非常 重要 的 查询 类 型 ， 搜 索引 擎 采 
用 了 全 文 索引 模式 来 避免 这 个 问题 ， 即 对 所 有 的 词 建立 索引 。 

第 三 个 问题 是 词 在 文档 集 内 的 分 布 。 简 单 的 模型 假设 在 每 个 文档 中 每 个 词 都 出 现 了 同样 
的 次 数 。 然 而 在 实际 中 ， 这 个 假设 并 不 成 立 。 比 较 好 的 模型 会 采用 一 个 负 二 项 分 布 ， 即 文档 
包含 一 个 出 现 丰 次 的 词 的 概率 下 (&) 是 ， 

atk—1 

F(R) = ( 4 ) 

其 中 p 和 a 都 是 依赖 于 这 个 词 和 文档 集 的 参数 。 例 如 ， 对 于 布朗 语料库 (Brown Corpus) 

[583] Alia] “said”, BY LAS p=9. 24 和 a 二 0.42[384]。 之 后 的 参考 文献 中 还 给 出 了 从 泊 
松 分 布 衍生 的 其 他 模型 。 

第 四 个 问题 是 文档 中 不 同 单词 的 数量 。 单 词 的 集合 称 为 文档 的 词汇 表 (vocabulary), 
记 为 V。 我 们 使 用 Heaps 法 则 [730] 来 预测 自然 语言 文本 中 词汇 表 大 小 的 增长 。 这 是 一 个 
非常 精确 的 规则 ， 它 指出 包含 个 词 的 文本 的 词汇 表 的 大 小 是 V= 二 Km 二 O(n)， 这 里 的 KK 
和 8 都 依赖 于 特定 的 文本 。 图 6-5 的 右 侧 给 出 了 词汇 表 大 小 随 文 档 大 小 变化 的 情况 。K 一 般 
都 在 10~100 之 间 ，p8 是 一 个 小 于 1 的 正 数 。 有 些 在 TREC-2 文档 集 上 的 实验 [65，116] 
指出 ，8 最 常用 的 值 是 在 0. 4 一 0. 6 之 间 的 。 因 此 ， 文 档 的 词汇 表 随 着 该 文本 大 小 按 近 似 其 
平方 根 的 比例 次 线性 增长 。 

值得 注意 的 是 一 种 语言 中 的 不 同 词 的 集合 是 由 一 个 常数 限定 的 (例如 不 同 的 英语 单词 的 
数量 是 有 限 的 ) 。 然 而 这 样 的 限制 实在 太 宽 泛 了 ， 以 至 于 假设 词汇 表 的 大 小 是 Of) HOM) 
更 准确 ， 虽然 对 于 足够 大 的 文本 ， 这 个 数目 应 该 是 稳定 的 。 另 一 方面 ， 因 为 输入 和 拼写 错误 
的 原因 ， 很 多 人 坚持 词汇 表 的 大 小 会 持续 增长 。 

Heaps 法 则 也 应 用 到 文档 集中 ， 因 为 随 着 文本 总 量 的 增长 ， 这 个 模型 的 预测 也 会 变 得 更 
准确 。 而 且 ， 这 个 模型 也 可 以 应 用 到 Web 中 (参见 第 11 章 ) 。 

最 后 一 个 问题 是 词 的 平均 长 度 。 平 均 长 度 把 文本 的 单词 数量 和 字 节 数 关 联 起 来 〈 不 考虑 
标点 和 其 他 符号 ) 。 例 如 ， 在 TREC-2 文档 集 的 不 同 子 集中 ， 词 长 的 平均 值 非常 接近 5 个 字 
母 ， 并 且 在 每 个 子 集中 平均 值 的 变化 范围 也 很 小 〈4. 8 一 5. 3 个 字母 ) 。 如 果 我 们 除去 禁用 词 
后 ， 词 长 的 平均 值 会 增长 到 6 一 ?7 个 字母 。 如 果 我 们 仅仅 考虑 在 词汇 表 中 的 单词 ， 那 么 平均 
长 度 会 更 大 些 ， 大 概 8 一 9 个 字母 。 这 个 值 定义 了 词汇 表 的 空间 需求 。 

不 变 的 平均 词 长 是 与 Heaps 法 则 不 相符 的 ， 原 因 如 下 面 所 述 。 随 着 文本 大 小 n 的 增长 ， 
Heaps 法 则 预测 词汇 表 也 会 增长 ， 这 意味 着 用 来 表示 所 有 不 同 的 词 的 字母 数 将 会 增加 。 因 
此 ， 越 来 越 长 的 单词 会 随 着 文本 的 增长 而 出 现 。 只 有 当 相 对 较 短 的 单词 的 出 现 足 够 普遍 时 
(这 是 经 常 的 事 ) ， 平 均 长 度 才 会 保持 不 变 。 实 际 上 ， 这 个 效果 并 不 明显 ， 因 此 可 以 假设 平均 
词 长 是 不 变 的 ， 是 与 文本 的 大 小 相 独 立 的 。 像 在 不 同上 下 文中 都 被 多 次 注意 到 的 那样 ， 平 均 
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词 长 保持 不 变 , :这 种 在 短 单词 和 长 单词 之 间 的 平衡 可 以 通过 有 限 状态 机 模型 解释 : 1) 空格 
的 概率 接近 0.2; 2) 空格 不 能 连续 地 出 现 两 次 ; 3) 26 个 字母 符合 一 个 固定 的 概率 分 布 
[1133]. 

在 本 节 中 介绍 的 模型 会 应 用 到 第 9 章 和 第 11 章 ， 特 别 是 齐 夫 法 则 和 Heaps KM. 


6.5.3 文本 相似 度 


在 本 节 中 ， 我 们 定义 字符 串 或 文档 之 间 的 语法 相似 度 的 概念 。 相 似 度 是 利用 距离 函数 衡 
量 的 。 例 如 ， 对 于 相同 长 度 的 字符 串 ， 我 们 可 以 定义 它们 之 间 的 距离 为 它们 拥有 不 同 字符 的 
位 置 的 个 数 。 因 此 如 果 它 们 相同 ， 则 上 距离 是 0。 这 称 为 Hamming ER. EEA RA AEX 
称 的 〈 不 受 参数 顺序 影响 ) ， 并 且 也 应 该 满足 三 角 不 等 式 。 即 

distance(asc) < distance(a,b) + distance (b,c) (6-6) 

—P HE HSH REA eR eB YC Edit distance), HY Levenshtein 距离 。 编 辑 距 
离 被 定义 为 使 两 个 字符 串 相同 而 在 其 中 任何 一 个 字符 串 上 进行 字符 插 人 、 删 除 和 替换 操作 的 
最 少 次 数 。 例 如 “color” 和 “colour” 的 编辑 距离 是 1, “survey” Fl “surgery” AYA HE By 
是 2。 编 辑 距离 是 处 理 语法 错误 的 首选 模型 。 还 有 其 他 更 复杂 的 模型 ， 比 如 Soundex AK, 
它 是 一 个 基于 语音 的 模型 [1195]。 编 辑 距 离 的 概念 也 存在 很 多 的 扩展 ， 比 如 为 插入 、 删 除 
和 替换 赋予 不 同 的 权重 ， 并 且 加 入 移动 作为 第 四 种 操作 。 

当然 也 存在 很 多 别 的 衡量 方法 。 例 如 ， 假 设 我 们 比较 两 个 给 定 的 字符 串 且 只 允许 删除 字 
符 的 操作 。 在 所 有 的 不 同 字符 被 删除 之 后 ， 剩 下 的 字符 序列 〈 不 一 定 在 原始 字符 串 中 连续 出 
现 ， 但 是 一 定 要 保持 相同 的 顺序 ) 就 是 两 个 字符 串 的 最 长 公共 子 序 列 〈longest common 
subsequence, LCS), 。 例 如 “survey” 和 “surgery” 的 最 长 公共 子 序列 是 “surey”。 

相似 度 可 以 扩展 到 文档 中 。 例 如 我 们 可 以 把 文档 中 的 行 看 做 是 一 个 单独 的 符号 ， 然 后 计 
算 两 个 文件 行 之 间 的 最 长 公共 序列 。 这 个 方法 用 在 类 UNIX 系统 的 diff 命令 。 这 种 方法 的 
主要 问题 是 非常 耗 时 ， 而 且 没 有 考虑 相似 行 。 后 者 可 以 利用 行 之 间 的 带 权 重 的 编辑 距离 修 
复 。 另 外 一 种 解决 方案 包括 提取 文档 的 指纹 (在 某 种 程度 上 描述 出 文档 特征 的 一 些 文本 片 
段 )， 之 后 进行 比较 (如 siff) ， 或 者 找 出 最 大 的 重复 片段 。 还 有 一 些 工 具 可 以 提供 文档 相似 
度 的 可 视 化 展示 。 例 如 Dotplot 可 以 绘 出 一 个 矩形 图 ， 其 中 两 个 坐标 轴 都 是 文件 的 行 ， 每 个 
坐标 是 一 个 灰 度 像素 ， 灰 度 像 素 依赖 于 两 个 对 应 行 的 编辑 距离 。 

更 有 效 的 文档 相似 度 衡 量 包括 余弦 相似 度 和 类 似 度 (resemblance)。 在 3. 2.6 节 中 使 用 
文档 的 向 量 模型 表示 和 定义 余弦 相似 度 ， 还 介绍 了 其 他 多 个 权重 函数 。 需 要 注意 的 是 非常 相 
似 的 文档 的 相似 度 值 接 近 1， 而 差异 非常 大 的 文档 的 相似 度 值 接近 于 0。 

另外 一 个 相似 度 衡量 是 类 似 度 [267]. EW) 为 文档 d 中 所 有 不 同 词 的 集合 ，d 
Ald, 的 类 似 度 函 数 尺 Cd ， 必 ) 可 定义 为 : 


R(d;,d;) = |Widi) N WCd;) | 


[Weai) U W(d,) | 
值得 注意 的 是 0 委 RCd，di) 委 1， 并 且 这 种 衡量 方式 是 Jaccard 相似 度 C816] 的 一 个 特例 。 
而 且 ， 我 们 可 以 利用 任何 合理 的 函数 W 的 定义 来 计算 类 似 度 。 最 高 效 的 技术 一 直 就 是 片段 
化 (shingling)。 片 段 (shingle〉 是 在 文档 中 连续 词 的 集合 ， 是 文档 内 容 的 子 集 。 在 利用 片 
段 来 计算 W 时 ， 因 为 用 多 个 词 的 组 合 来 代替 单个 词 ， 所 以 我 们 可 以 更 快 地 计算 类 似 度 。 

另外 ， 任 何在 Co, 1] 范围 内 的 相似 度 衡量 都 可 以 通过 如 下 方式 方便 地 转换 为 距离 函数 
D(d;, d;): 


(6-7) 
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D(d;,d;) = 1— Sim(d;.d;) (6-8) 


6.6 文档 预 处 理 


文档 预 处 理 可 以 分 为 五 个 文本 操作 《或 转换 ) WE: 

1) 词汇 分 析 ， 用 来 处 理 数字 、 连 字符 、 标 点 符号 和 字母 的 大 小 写 。 

2 去 除 禁用 词 ， 用 来 过 滤 对 于 检索 来 说 区 分 度 非常 低 的 单词 。 

3) 对 剩 下 的 词 进 行 词 干 提取 ， 去 除 词 弘 〈 也 就 是 前 缀 和 后 级)， 使 得 文档 检索 包含 查询 
项 的 语法 变化 (例如 connect. connecting, connected 等 )。 

4) 选择 索引 项 或 者 关键 词 ， 这 个 阶段 决定 哪些 词 / 词 干 (或 词组 ) 可 以 用 做 索引 元 素 。 
通常 一 个 特定 的 词 能 否 用 做 索引 项 是 和 这 个 词 的 语法 特性 有 关系 。 实 际 上 ， 和 名词 通 常 比 形容 
词 、 副 词 和 动词 携带 了 更 多 的 语义 。 

5) 创建 同义词 典 等 词类 结构 ,或 者 直接 在 文本 中 抽取 结构 ， 以 便 用 相关 项 去 扩展 原始 
查询 (一 个 通常 有 用 的 步骤 )。 

接 下 来 会 详细 讨论 这 些 阶段 。 在 这 之 前 ,我们 看 一 下 在 上 面 每 个 阶段 完成 后 得 到 的 文档 
的 逻辑 视图 。 为 了 方便 ， 图 3-3 在 这 里 被 重复 用 做 图 6-6。 如 同 已 经 讨论 的 那样 ， 通 过 聚合 
这 些 预 处 理 步骤 ， 我 们 能 够 将 被 系统 接受 的 文档 从 全 文 转化 到 一 组 更 高 层次 的 索引 项 。 









Bia , 
na 词 和 提取 7 RE | 


图 6-6 一 篇 文档 通过 文本 预 处 理 阶段 的 逻辑 视图 


6.6.1 文本 的 词汇 分 析 


词汇 分 析 是 将 字符 流 (文档 文本 ) 转化 为 单词 流 〈 被 选 做 索引 项 的 候选 单词 的 过 程 。 
因此 ， 词 汇 分析 阶 段 的 主要 目的 是 识别 出 文本 中 的 单词 。 乍 看 ， 需 要 做 的 仅仅 是 识别 出 作为 
单词 分 隔 符 的 空格 〈 在 这 种 情况 下 ， 多 个 空格 被 缩减 为 一 个 空格 ) 。 然 而 ， 实 际 要 做 的 还 有 
很 多 。 PI, FRAN 4 种 特殊 情况 也 需要 仔细 地 考虑 : 数字 、 连 字符 、 分 隔 符 和 字母 的 大 小 
写 〈 小 写 或 大 写 的 情况 ) 。 

数字 通常 不 是 很 好 的 索引 项 ， 因 为 当 没 有 周围 的 上 下 文 时 ， 它 们 的 含义 模糊 不 清 。 例 
如 ， 假 设 某 个 用 户 对 关于 在 1910 一 1989 年 因 车 祸 死 亡 数目 的 文档 感 兴趣 。 这 样 的 一 个 查询 
可 以 由 下 面 的 一 系列 索引 项 定义 (deaths, car, accidents, years, 1910, 1989}. Rin, XK 
字 1910 和 1989 在 查询 中 出 现 可 能 会 导致 检索 到 很 多 不 是 关于 这 两 年 的 文档 。 这 个 问题 就 是 
因为 数字 本 身 太 模 糊 了 。 因 此 ， 通 常 在 索引 项 中 忽略 数字 是 明智 的 选择 。 然 而 ， 我 们 也 应 该 
考虑 那些 在 一 个 词 中 混合 出 现 的 数字 。 例 如 “510B. C. ”公元 前 510 年 ) 就 是 一 个 非常 重 
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要 的 索引 项 。 在 这 种 情况 下 ， 该 使 用 什么 规则 就 不 是 很 清楚 了 。 而 且 ， 一 个 标识 信用 卡号 码 
的 16 位 数字 可 能 和 给 定 的 上 下 文 是 高 度 相 关 的 ， 在 这 种 情况 下 ， 也 应 该 看 做 是 索引 项 。 一 
个 处 理 数 字 的 初步 方法 是 删除 所 有 包含 数字 串 的 单词 ， 除 了 那些 〈 通 过 正则 表达 式 ) 指定 
的 。 另 外 ， 更 深入 的 词汇 分 析 过 程 可 能 会 对 某 些 日 期 和 数字 进行 标准 化 ， 以 统一 格式 。 这 包 
括 了 数字 和 书写 版 本 的 日 期 或 数字 。 

连 字 符 对 于 词汇 分 析 器 来 说 也 是 很 难 判 断 的 。 由 于 用 法 的 不 一 致 ， 断 开 含 有 连 字符 的 词 
可 能 是 有 用 的 。 例 如 “state-of-the-art” 和 “state of the art” 可 以 同等 看 待 。 然 而 ， 有 一 些 
包含 连 字 符 的 词 是 一 个 完整 的 整体 ， 例 如 gilt-edge 和 B-49。 此 外 ， 最 合适 的 过 程 也 是 采用 
一 个 普遍 规则 并 且 指 定 一 些 例外 情况 。 

通常 ， 在 词汇 分 析 的 过 程 中 将 完全 除去 分 申 符 。 虽 然 ， 在 有 些 情况 下 ， 分 隔 符 是 整个 词 
的 一 部 分 〈 例 如 “510B. C. ”) ， 但 是 删除 它们 似乎 也 不 会 对 信息 检索 产生 影响 ， 因 为 在 这 种 
情况 下 ， 曲 解 的 几率 是 很 小 的 。 实 际 上 ， 如 果 用 户 在 他 们 的 查询 中 使 用 了 “510B. C”， 在 查 
询 和 文档 中 同时 删除 点 号 不 会 影响 检索 。 但 是 ， 很 特殊 的 情况 下 可 能 需要 准备 一 个 例外 列 
表 。 例 如 ， 如 某 一 段 程序 代码 出 现在 文本 中 ， 在 变量 “x. id” 和 “xid” 之 间 做 出 区 分 是 比 
较 明智 的 。 在 这 种 情况 下 ， 点 号 不 应 该 删除 。 

字母 的 大 小 写 对 于 索引 项 的 识别 来 说 往往 并 不 是 十 分 重要 的 。 因 此 ， 词 汇 分 析 器 一 般 将 
所 有 的 文本 转换 为 小 写 或 者 大 写 。 但 是 ， 同 样 在 一 些 非常 特殊 的 情况 下 ， 仍 然 需 要 做 出 区 
分 。 例 如 ， 当 用 户 查找 描述 类 UNIX 操作 系统 命令 的 详细 内 容 的 文档 时 ， 可 能 就 希望 不 要 
做 大 小 写 转换 ， 因 为 大 小 写 也 是 操作 系统 协议 的 一 部 分 。 此 外 ， 有 些 语义 也 可 能 因为 大 小 写 
转换 而 丢失 。 例 如 ， 单 词 “Bank” 和 “bank” 就 有 不 同 的 含义 一 一 很 多 其 他 的 词 对 也 存在 
这 样 的 现象 。 . 

Foxl577] 指出 ， 所 有 这 些 文本 操作 能 够 容易 地 实现 。 然 而 必须 要 仔细 对 待 ， 因 为 它们 
可 能 在 文档 检索 的 时 候 产 生 深 远 的 影响 。 在 用 户 很 难 理解 索引 策略 的 情况 下 ， 就 特别 麻烦 。 
不 幸 的 是 ， 对 于 这 个 问题 也 没有 清晰 的 解决 方案 。 正 如 上 面 提 到 的 ， 有 些 Web 搜索 引擎 选 
择 不 进行 文本 操作 ， 因 为 这 些 操 作 可 以 简化 用 户 对 检索 任务 的 解释 。 是 否 选 择 这 个 策略 还 有 
待 长 时 间 的 观察 。 


6. 6.2 去 除 禁 用 词 


正如 在 第 3 章 中 讨论 的 ， 在 文档 集中 出 现 过 多 的 词 ， 它 们 的 区 分 性 往往 不 好 。 事 实 上 ， 
在 80% 的 文档 集中 都 出 现 的 词 对 于 检索 目的 并 没有 什么 作用 。 这 些 词 通常 称 为 禁用 词 
(stopword) ， 并 且 一 般 情况 下 都 会 被 过 滤 掉 而 不 作为 候选 的 索引 项 。 冠 词 、 介 词 和 连词 很 显 
然 是 禁用 词 。 

去 除 禁 用 词 还 有 另外 一 个 重要 的 好 处 ， 它 显著 减少 了 索引 结构 的 大 小 。 实 际 上 ， 只 去 除 禁 
用 词 ， 通 常 就 可 以 使 得 索引 结构 的 大 小 〈 例 如 倒 排 索 引 大 小 ， 见 第 9 章 ) 压缩 40% 其 至 更 高 。 

因为 去 除 禁 用 词 可 以 为 索引 结构 提供 很 高 的 压缩 比 ， 因 此 禁用 词 表 可 能 会 被 扩展 到 其 他 
的 词 ， 而 不 单单 是 冠 词 、 介 词 或 者 连词 。 例如， 有 些 动词 、 副 词 和 形容 词 可 能 都 会 被 看 做 禁 
用 词 。 在 文献 [582] 中 ， 给 出 了 一 个 包含 425 个 禁用 词 的 列表 。 同 时 也 提供 了 C 语言 版 本 
的 词汇 分 析 器 。 

虽然 有 这 些 优点 ， 但 是 去 除 禁 用 词 也 可 能 会 造成 召回 率 的 降低 。 例 如 ， 查 询 一 个 包含 
“to be or not to be” 短 句 的 文档 。 去 除 禁 用 词 后 可 能 只 会 留 下 “be”， 从 而 不 可 能 正确 地 识 
别 出 包 括 这 个 短 句 的 文档 。 这 也 是 为 什么 有 些 Web 搜索 引擎 采用 全 文 检 索 〈 也 就 是 说 ， 在 
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文档 集中 出 现 的 所 有 词 都 会 加 入 到 倒 排 索引 中 ) 的 另 一 个 原因 。 另 外 ， 由 于 Web 上 有 很 多 
语言 ， 因 此 可 以 通过 统计 方法 定义 禁用 词 ， 如 把 出 现 次 数 超过 一 定 频 率 的 词 当 成 禁用 词 。 例 
ao, “html” at “www” 


6.6.3 词 干 提取 


在 很 多 情况 下 ， 用 户 在 查询 中 使 用 了 一 个 词 ， 然 而 在 相关 的 文档 中 只 有 这 个 词 的 变形 出 
现 。 复 数 、 动 名 词 和 过 去 分 词 形式 都 是 这 种 语法 变化 的 例子 ， 这 些 变化 使 得 查询 单词 和 对 应 
文档 单词 不 能 完全 匹配 。 这 个 问题 可 以 通过 将 原单 词 奉 换 为 对 应 的 词 干 形式 来 部 分 地 解决 。 

词 千 (stem) 是 在 去 除了 词 级 〈 也 就 是 前 级 和 后 缀 ) 之 后 的 词 的 一 部 分 。 一 个 词 干 的 典 
型 例子 是 connect, connect 是 connected, connecting, connection 和 connections 这 些 变化 
的 词 干 。 一 般 认为 词 干 提取 对 提高 检索 性 能 是 有 用 的 ， 因 为 它们 将 同一 词根 的 不 同 变化 合并 
到 一 个 公共 概念 上 。 而 且 ， 词 干 提取 还 有 一 个 减少 索引 结构 大 小 的 作用 ， 因 为 不 同 索 引 项 的 
数量 被 减少 了 。 

然而 ， 即 使 支持 词 干 提取 的 论调 从 直观 上 是 合理 的 ， 但 是 关于 词 干 提取 对 检索 性 能 的 帮 
助 在 文献 上 仍然 存在 争论 。 实 际 上 ， 不 同 的 研究 导致 了 相当 冲突 的 结论 。FrakesL582] 比较 
了 有 关 词 干 提取 潜在 好 处 的 8 项 研究 。 他 倾向 于 词 干 提取 ， 但 他 调查 过 的 这 8 个 实验 的 结果 
还 不 能 使 得 我 们 获得 一 个 满意 的 结果 。 因 为 这 些 疑 问 的 存在 ， 很 多 Web 搜索 引擎 并 不 使 用 
词 干 提取 的 算法 。 

Frankes 区 分 了 4 种 类 型 的 词 干 提取 策略 : 词缀 去 除 、 表 查找 、 后 续 变 化 和 元 语法 
(n-gram)。 表 查找 是 在 一 个 表 中 简单 地 查找 一 个 词 的 词 干 。 这 是 一 个 简单 的 过 程 ， 但 是 它 依 
赖 于 整个 语言 的 词 干 数据 。 因 为 这 些 数 据 不 能 轻易 获 了 到， 并且 还 需要 相当 大 的 存储 空间 ， 这 
种 词 干 提取 算法 可 能 并 不 实用 。 后 续 变化 方法 基于 词素 边界 的 确定 ， 需 要 使 用 结构 语言 学 的 
知识 ， 因 此 比 词缀 去 除 算法 更 复杂 。n-gram 方法 基于 双 字 母 组 合 和 三 字母 组 合 的 识别 ， 并 
且 更 像 词 汇聚 类 ， 而 不 是 词 干 提 取 。 词 缀 去 除 方 法 更 直观 、 简 单 ， 并 且 可 以 很 高 效 地 实现 。 
因此 本 节 将 只 集中 讨论 词缀 去 除 方法 。 

在 词缀 去 除 方法 中 ， 最 重要 的 部 分 就 是 后 缀 的 去 除 ， 因 为 一 个 词 的 大 部 分 变化 都 是 由 后 
缀 (而 不 是 前 级 ) 的 引入 而 产生 的 。 已 经 存在 3、4 个 非常 有 名 的 后 缀 去 除 算 法 ， 其 中 对 于 
英语 最 流行 的 是 Porter 算法 ， 因 为 它 既 简单 又 优美 。 尽 管 这 个 算法 比较 简单 ， 但 是 与 其 他 
更 复杂 的 算法 取得 的 结果 差不多 。 

Porter 算法 使 用 了 一 个 后 绎 表 用 于 后 缀 去 除 。 其 思想 是 对 于 在 文本 中 词 的 后 缀 采用 一 系 
列 的 规则 。 例 如 ， 规 则 

s—$ 
通过 将 字母 * 用 空 (nil) 代替 将 复数 形式 转化 为 单数 形式 。 为 了 识别 后 级 ， 我 们 必须 检验 在 
词 中 的 最 后 一 些 字 母 。 然 后 我 们 寻找 能 匹配 规则 集合 中 规则 左边 的 最 长 字母 种。 因此 应 用 下 
面 两 个 规则 

s—ė (6-9) 
词 “stresses” 产 生词 干 “stress” 而 不 是 词 干 “stresse”。 通 过 把 这 些 类 似 规则 分 为 5 个 不 
同 的 阶段 ，Porter 算法 能 够 提供 快速 有 效 的 词 干 提取 9 。 


© Porter 算法 的 详细 描述 可 以 在 本 书 的 网 站 上 找到 ， 其 实现 发 布 在 http://snowball. sourceforge. org. 
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其 他 语言 的 词 干 提取 算法 可 能 是 非常 不 同 的 。 例 如 ， 西 班 牙 语 有 很 多 的 例外 ， 因 此 一 个 
好 的 词 二 提取 算法 也 需要 字典 。 像 德语 和 芬兰 语 这 样 的 粘着 语 ， 词 干 提取 就 更 加 困难 。 对 于 
阿拉 伯 语 也 是 同样 的 情况 。 此 外 ， 在 汉语 中 ， 词 干 提取 也 不 会 起 到 什么 作用 。 


6.6.4 关键 词 选 择 


如 果 采 用 了 全 文 表示 ， 那 么 文本 中 所 有 的 词 都 被 用 做 索引 项 。 也 就 是 说 ， 所 有 的 项 都 需要 被 
索引 。 另 一 种 方法 更 具有 摘要 性 ， 这 个 方法 并 不 用 把 所 有 的 词 都 用 做 索引 项 。 这 就 意味 着 需要 选 
择 索 引 的 项 集 。 在 目录 学 领域 ， 选 择 索 引 项 往往 是 由 专家 使 用 分 类 体系 和 受 控 词汇 表 ( 见 图 6-6) 
完成 的 。 在 这 种 情况 下 ， 索 引 项 的 集合 一 般 比 较 小 ， 并 且 每 个 索引 项 称 为 关键 词 (keyword) 。 

另 一 个 方法 是 自动 选择 候选 的 索引 项 。 可 能 的 做 法 是 识别 出 名 词组 〈 就 像 在 Inaquery 系 
统 [280] 中 所 做 的 那样 ) ， 我 们 现在 讨论 这 个 方法 。 

在 自然 语言 文本 中 ， 句 子 通常 是 由 名 词 、 代 词 、 冠 词 、 动 词 、 形 容 词 、 副 词 以 及 连词 构 
成 的 。 昌 然 在 每 种 语法 类 中 的 词 都 以 一 种 特殊 目的 使 用 ， 但 可 以 说 基本 上 大 多 数 的 语义 是 由 
名 词 承载 的 。 因 此 自动 选择 索引 项 的 一 个 直观 合理 的 策略 就 是 使 用 在 文本 中 的 名 词 。 可 以 通 
过 系统 地 去 除 动 词 、 形 容 词 、 副 词 、 连 词 、 冠 词 以 及 代词 而 实现 。 

因为 两 三 个 名 词 经 常 组 合成 一 个 单独 成 分 〈 例 如 computer science， 计 算 机 科学 )， 所 以 
将 文本 中 相 邻 出 现 的 多 个 名 词 作 为 一 个 单独 的 索引 成 分 〈 或 者 概念 ) 是 非常 合理 的 。 因 此 我 
们 可 以 采用 名 词组 来 代替 单独 的 名 词 作为 索引 项 。 名 词组 是 由 一 组 名 词 构成 的 ， 这 些 名 词 在 
文本 中 的 语法 距离 (syntactic distance) 〈 利 用 两 个 名 词 之 间 的 词 的 个 数 来 衡量 ) 不 超过 一 个 
预定 义 的 阐 值 〈 例 如 阔 值 为 3) 。 

当 采 用 名 词组 作为 索引 项 时 ， 我 们 根据 非 基本 索引 项 集合 可 以 获得 文档 的 概念 逻辑 视图 。 


6. 6.5 同义词 典 


单词 “thesaurus” 起 源 于 希腊 语 和 拉丁 语 ， 用 来 指 词 的 宝库 [574]。 它 最 简单 的 形式 
是 由 下 面 两 个 方面 组 成 的 ，1) 一 个 预先 编辑 的 、 在 给 定 知识 领域 中 非常 重要 的 词 的 列表 ; 
D 对 列表 中 的 每 个 词 给 出 相关 词 的 集合 。 相 关 词 在 它 最 常见 的 变化 形式 中 指 的 是 从 同 义 关 
系 中 衍生 出 来 的 词 。 

然而 ， 除 了 一 个 规范 化 版 本 的 词汇 表 之 外 ， 同 义 词 典 通常 进行 了 词汇 表 的 归 一 化 ， 还 包 
括 了 一 个 比 简单 词 表 更 复杂 的 结构 以 及 它们 的 同义词 。 例 如 ， 最 为 流行 的 是 由 Peter Roget 
[1377] 创建 的 同义词 典 ， 它 包含 了 短语 (phrase)， 短 语 是 比 单词 更 复杂 的 概念 。Roget 同 
义 词 典 是 一 个 通用 的 同义词 典 〈 不 是 为 某 个 特定 的 知识 领域 定制 的 )， 并 且 利 用 类 和 子 类 来 
组 织 单词 和 短语 。 

Roget 同义词 典 中 的 一 个 条 目 展示 如 下 ， 

cowardly adjective 

Ignobly lacking in courage: cowardly turncoats. 

Syns; chicken (slang), chicken-hearted, craven, dastardly, faint-hearted, gutless, 

lily-livered, pusillanimous, unmanly, yellow(slang), yellow-bellied(slang) . 

Mt FIA cowardly, Roget 同义词 典 结 合 多 个 同义词 组 成 一 个 同义词 典 中 的 类 。Roget 
同义词 典 是 通用 的 ， 但 同义词 典 也 可 以 为 任意 知识 领域 定制 。 例 如 , “Thesaurus of Engineering 
and Scientific Terms” (工程 与 科学 词汇 氢 词 表 ) 就 包含 了 与 工程 技术 相关 术语 的 概念 。 

根据 FoshkettL574]， 同 义 词典 的 主要 目的 基本 上 是 : D 为 索引 和 搜索 提供 一 个 标准 的 
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词汇 表 (或 参考 系统 ); 2) 帮助 用 户 选 择 索引 项 来 进行 适当 的 查询 描述 ;3) 提供 一 个 分 类 
的 层次 结构 ， 以 便 根据 用 户 的 要 求 扩展 或 者 缩小 当前 的 查询 范围 。 然 而 ， 在 本 节 中 ， 我 们 不 
会 讨论 如 何 使 用 同义词 典 来 修改 用 户 查 询 。 这 方面 内 容 在 第 5 章 中 已 经 涉及 了 ， 第 5 章 也 讨 
论 了 如 何 自动 创建 同义词 典 的 算法 。 

创建 同义词 典 的 动机 是 建立 在 为 索引 和 搜索 创建 一 个 词汇 表 这 样 一 个 基本 的 想法 。 一 个 
受 控 词汇 表 有 很 多 优点 ， 如 规范 索引 概念 、 减 少 噪声 、 识 别 具 有 明确 语义 的 索引 项 ， 以 及 基 
于 概念 而 不 是 基于 词 的 检索 。 这 些 优点 在 某 些 特定 领域 尤其 重要 ， 例 如 对 于 医药 领域 中 已 经 
有 了 大 量 的 编辑 好 的 知识 。 然 而 对 于 一 般 领 域 ， 还 没有 众所周知 的 文档 集 知 识 库 。 可 能 是 因 
为 文档 比较 新 、 太 庞大 ， 或 者 是 动态 多 变 的 。 在 Web EER. AEE, “Yahoo!” 
搜索 引擎 为 用 户 提供 了 一 个 索引 项 的 层次 分 类 结构 ， 从 而 减少 搜索 范围 , “Yahoo!” 搜 索引 
擎 的 成 功 说 明 ， 即 使 是 在 Web 的 动态 世界 中 ， 基 于 同义词 典 的 技术 也 是 非常 有 用 的 。 

对 Web 来 说 ， 对 同义词 典 优点 的 一 致 认可 还 显得 太 早 。 因 此 ， 很 多 搜索 引擎 简单 地 使 
用 文档 中 所 有 的 词 作为 索引 项 〈 也 就 是 说 ， 没 有 为 索引 和 检索 目的 而 使 用 受 控 词汇 表 的 概 
念 ) 。 基 于 同义词 典 的 技术 能 香 在 Web 中 兴盛 还 有 待 观 察 。 

同义词 典 的 主要 部 分 是 它 的 索引 项 、 项 间 关 系 以 及 为 表示 这 些 项 间 关 系 的 布局 设计 。 索 
引 项 和 项 间 关 系 将 在 后 面 介 绍 。 项 间 关 系 的 布局 设计 可 能 是 以 列表 或 二 维 表 示 的 形式 出 现 。 
这 里 我 们 仅仅 考虑 一 般 的 基于 列表 的 布局 结构 ， 因 此 不 会 过 多 地 讨论 同义词 典 中 项 的 布局 问 
题 .更 细节 的 讨论 可 以 参考 [574]。 

1. 关键 词 

项 是 同义词 典 的 索引 部 件 。 同 义 词典 中 的 项 通常 用 来 表示 概念 ， 概 念 是 指 传达 想法 的 基 
本 语义 单元 。 项 可 以 是 单一 的 单词 、 词 组 或 短语 ， 而 其 中 大 部 分 都 是 单词 。 而 且 ， 项 往往 是 
名 词 ， 因 为 名 词 是 最 有 具体 概念 的 词性 。 当 动词 被 用 做 名 词 时 (例如 acting, teaching 等 )， 
项 也 可 以 是 动 名 词 形 式 的 动词 。 

当 一 个 概念 无 法 用 单个 单词 表达 的 时 候 ， 就 用 一 组 词 来 代替 。 例 如 很 多 概念 利用 形容 词 
和 和 名词 的 组 合 能 够 更 好 地 表达 。 一 个 典型 的 例子 是 “polar bear” (北极 能 )。 在 这 种 情况 下 ， 
直接 索引 这 个 组 合 词 会 在 polar 下 面 而 不 是 bear 下 面 生 成 一 个 条 目 ， 这 样 显 然 是 不 足 的 。 为 
了 防止 这 个 问题 的 出 现 ， 复 合 项 一 般 被 修改 成 名 词 作 为 第 一 个 词 。 例 如 我 们 将 “polar bear” 
修改 为 “bears，polar”。 

注意 我 们 采用 了 复数 形式 的 “bears” 而 不 是 单数 形式 “bear”。 原 因 是 同义词 典 表 示 的 是 
事物 的 类 ， 因 此 使 用 复数 形式 更 为 自然 。 然 而 ， 对 于 “body temperature” 这样 通常 以 单数 形式 
出 现 的 复合 项 仍 会 使 用 单数 形式 。 决 定 使 用 单数 形式 还 是 复数 形式 并 不 总 是 件 容易 的 事 。 

除了 项 本 身 外 ， 通常 还 需要 补充 同义词 典 条 目的 定义 或 解释 。 原 因 是 需要 在 特定 的 上 下 
文 环境 中 明确 词 的 准确 含义 。 例 如 ，“seal” 在 “marine animal” (海洋 生物 ) 上 下 文中 和 在 
“documents” 文档) 上 下 文中 拥有 完全 不 同 的 含义 8 。 在 这 种 情况 下 ， 要 给 定义 附加 上 使 
用 的 上 下 文 解释 ， 例 如 “seal(marine animals)” # “seal(documents)” [1501], 

2. 项 间 关 系 

给 定 项 的 相关 项 集 大 多 数 是 由 同义词 和 近义词 组 成 的 。 此 外 ， 项 间 关 系 还 可 以 由 在 文档 
中 的 共 现 次 数 统计 出 来 。 这 些 关 系 往往 是 层次 结构 的 ， 并 且 经 常 指明 是 广义 的 〈 用 BT 表 
W) 或 者 狭义 的 (用 NT 表示 ) 相关 项 。 然 而 ， 关 系 也 可 能 呈现 机 向 或 者 非 层 次 性 结构 。 在 


O ”分别 表示 “海豹 ”和 “印章 ”。 一 一 译 者 注 
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这 种 情况 下 ， 我 们 简单 地 说 这 些 项 是 相关 的 (用 RT 表示 )。 

如 第 5 章 中 讨论 的 ，BT 和 NT 的 关系 定义 了 一 个 分 类 层次 结构 ， 在 这 个 结构 中 广义 项 
对 应 一 个 同 义 类 ， 而 狭义 项 对 应 这 个 类 中 的 一 个 实例 。 更 进一步 说 ， 一 个 狭义 项 可 能 对 应 两 
个 或 多 个 的 广义 项 (虽然 这 不 是 常见 的 情况 )。 虽 然 BT 和 NT 关系 可 以 全 自动 地 识别 〈( 即 
不 需要 人 的 帮助 ;， 但 处 理 RT 关系 则 更 加 困难 。 一 个 原因 是 RT 关系 依赖 特定 的 上 下 文 ， 
并 且 依 赖 用 户 组 的 特殊 需求 ， 因 此 在 没有 专家 提供 知识 的 情况 下 很 难 识别 。 

3. 同义词 典 在 信息 检索 中 的 应 用 

如 同 Peter Roget (1377, 574] 描述 的 那样 ， 同 义 词典 是 词 和 短语 的 分 类 模式 ， 其 组 织 
目的 是 为 了 能 够 促进 书面 语 的 思想 表达 。 因 此 ， 当 用 户 很 难 找 到 合适 的 项 来 表示 他 的 想法 时 
(在 正式 书写 时 这 是 常见 的 情况 )， 他 可 以 使 用 同义词 典 来 更 好 地 掌握 与 他 想法 相关 的 项 的 基 
本 语义 。 

信息 检索 的 研究 人 员 多 年 来 推测 和 研究 了 同义词 典 在 进行 查询 描述 过 程 中 的 帮助 作用 。 
只 要 用 户 需要 检索 文档 ， 首 先 就 要 对 他 想 查 找 的 东西 进行 概念 化 ， 这 样 的 概念 化 是 他 们 的 信 
& % & (information need) 。 给 定 信息 需求 ， 用 户 仍 然 必 须 把 它 转换 为 信息 检索 系统 的 查询 
语言 。 这 往往 意味 着 需要 选择 一 系列 的 索引 项 。 然 而 ， 因 为 这 个 集合 非常 庞大 并 且 用 户 往 往 
缺乏 经 验 ， 所 以 这 样 的 初始 (initial) 索引 项 的 选择 可 能 是 错误 的 或 者 不 恰当 的 (对 于 Web 
等 未 知 和 高 度 动态 的 文档 集 来 说 ， 这 种 情况 更 加 普遍 )。 在 这 样 的 情况 下 ， 重 构 原 始 的 查询 
似乎 更 是 一 个 合理 的 行为 。 这 样 的 重 构 过 程 往 往 意味 着 用 相关 项 扩展 原始 的 查询 。 因 此 ， 使 
用 同义词 典 来 帮助 用 户 查询 相关 项 也 是 很 自然 的 。 

遗憾 的 是 ， 这 个 方法 并 不 能 一 直 奏 效 ， 因 为 在 同义词 典 中 获取 的 关系 在 给 定 的 用 户 查询 
的 局 部 上 下 文中 往往 是 不 可 行 的 。 另 一 种 选择 则 是 在 查询 的 时 候 决 定 同 义 关系 。 然 而 ， 对 于 
Web 搜索 引擎 这 个 选择 也 没有 吸引 力 ， 因 为 Web 搜索 引擎 不 能 在 单一 查询 中 花费 太 多 的 时 
间 。 这 个 问题 和 其 他 与 同义词 典 技术 相关 的 问题 已 在 第 5 章 中 讨论 过 了 。 


6.7 组 织 文档 


既然 组 织 事务 、 实 体 和 世界 中 的 物体 是 人 类 的 特性 ， 那 么 组 织 文档 集 也 是 很 自然 的 事 
情 。 这 样 ， 寻 找 某 一 类 或 某 一 类 型 的 文档 就 变 得 比较 容易 。 这 是 图 书馆 的 起 源 ， 否 则 寻找 一 
个 给 定 的 文档 会 变 得 非常 困难 。 缺 乏 组 织 的 文档 集 使 得 理解 和 推理 都 变 得 更 困难 ， 特 别 是 对 
大 量 的 文档 。 现 在 存在 两 种 主要 的 组 织 文档 的 技术 。 最 古老 和 最 常用 的 是 分 类 体系 法 〈tax- 
onomies)， 接 下 来 会 介绍 ; 第 二 种 是 更 新 的 分 众 分 类 法 (folksonomies)。 





6.7.1 分 类 体系 法 


在 众多 的 组 织 方式 中 ,最 常用 的 是 层次 化 (hierarchical) 组 织 方 式 。 基 本 原因 是 因为 层 
次 化 结构 对 人 们 来 说 更 直观 。 举 个 例子 ， 在 我 们 整理 文件 、 账 单 和 私人 文档 时 ， 首 先 将 它们 
放 进 文件 夹 中 ， 然 后 再 放 进 橱柜 中 ， 这 是 很 常见 的 。 另 一 个 比较 常见 的 现象 是 ， 在 我 们 整理 
书桌 时 ， 我们 将 文档 和 文件 全 成 独立 的 堆 ， 使 得 越 重 要 的 堆 距 离 我 们 越 近 。 公 司 和 机 构 是 层 
次 组 织 ， 政 府 和 国家 也 往往 是 这 样 。 层 次 化 使 得 我 们 可 以 使 用 更 普遍 的 概念 推理 ， 这 样 加快 
了 我 们 的 推理 ， 有 助 于 我 们 对 世界 的 理解 。 它 们 也 将 庞大 的 (和 更 复杂 的 ) 对 象 集 划 分 为 小 
的 子 集 以 帮助 搜索 和 检索 。 

对 于 文档 ， 我 们 可 以 把 它们 分 为 不 同 的 类 。 我 们 利用 特 化 、 泛 化 和 同 级 关系 来 层次 化 地 
组 织 这 些 类 。 用 这 种 方式 层次 化 组 织 的 类 形成 了 一 个 分 类 体系 (taxonomy). WEE 8 章 
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中 ， 图 8-21 的 一 个 例子 展示 了 分 类 体系 。 另 外 一 个 例子 来 自 本 书 中 ， 在 图 3-2 中 我 们 利用 
分 类 体系 组 织 了 所 有 的 信息 检索 模块 。 

在 创建 某 个 特定 领域 的 知识 时 ， 分 类 体系 法 变 得 更 加 有 意义 。 例 如 在 医药 领域 中 ， 统 一 
医学 语言 系统 (Unified Medical Language System, UMLS) 提供 了 一 个 关于 医学 概念 的 分 
类 学 组 织 [1174]， 这 个 方法 被 当做 引用 标准 。 可 以 为 不 同 的 领域 知识 创建 分 类 体系 ， 例 如 
人 文艺 术 、 产 品 与 服务 、 科 学 技术 或 者 社会 科学 。 怎 样 自动 创建 分 类 体系 在 8.7 节 中 介绍 ， 
在 本 书 的 其 他 章节 我 们 也 会 利用 分 类 体系 ， 特 别 是 在 介绍 Web 检索 的 第 11 章 。 
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6-7 ”利用 标签 云 的 Flick 分 众 分 类 表示 (2010 ¥ 1 AD 


6.7.2 分 众 分 类 法 


分 类 体系 法 非常 有 用 ， 但 有 些 时 候 是 不 可 用 的 。 分 类 体系 法 意味 用 户 必 须知 道 一 个 受 控 
词汇 表 来 描述 需要 组 织 的 文档 或 对 象 ， 如 我 们 在 6. 6. 5 节 中 所 见 的 、 在 目录 系统 中 的 关键 
词 。 即 使 用 户 知道 了 这 个 受 控 词汇 表 ， 这 个 词汇 表 中 的 关键 词 可 能 也 不 能 自然 地 描述 文档 ， 
并 且 用 户 往往 希望 使 用 他 们 自己 的 词汇 作为 关键 词 〈 参 看 6. 6. 4 节 和 图 6-6) 。 在 这 种 情况 下 
的 另 一 种 选择 是 现在 所 谓 的 分 众 分 类 法 〈folksonomy) 。 在 分 众 分 类 法 中 ， 每 个 用 户 可 以 自 
由 地 选择 关键 词 ， 称 为 标签 (tag)。 所 有 标签 的 集合 创建 了 一 个 “扁平 ”的 组 织 结构 ， 文 档 
和 对 象 可 以 通过 标签 来 查找 。 当 前 分 众 分 类 法 最 好 的 例子 是 Del icio. us9 中 的 URL, 
Flickr® 中 的 图 片 和 YouTube® 中 的 视频 。 

分 众 分 类 法 可 以 和 分 类 体系 法 结合 ， 并 且 也 有 一 些 研究 人 员 试 图 自动 构建 分 众 分 类 法 的 
层次 结构 。 最 常见 的 分 众 分 类 法 的 表示 是 标签 云 (tag cloud)。 在 标签 云 中 ， 流 行 的 标签 以 
字典 序 展示 ， 并 且 根 据 不 同 的 流行 度 使 用 不 同 的 字体 大 小 。 我 们 在 图 6-7 中 给 出 了 一 个 例 
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子 ， 它 展示 了 在 Flickr 中 一 段 时 间 内 最 流行 的 标签 。 


6.8 文本 压缩 


文本 压缩 是 用 更 少 的 空间 来 表示 文本 的 技术 。 压 缩 算法 通过 识别 和 利用 文本 的 规律 来 创 
建 精 减 的 文本 表示 。 而 原始 文本 可 以 从 压缩 的 版 本 中 准确 无 误 地 重 构 出 来 。 

文本 压缩 正在 成 为 信息 检索 环境 中 的 一 个 重要 问题 。 数 字 图 书馆 、 办 公 自 动 化 系统 、 文 
档 数据 库 和 Web 的 广泛 使 用 使 得 在 线 文本 资源 爆炸 性 地 增长 。 在 这 种 情况 下 ， 文 本 压缩 成 
为 减少 空间 开销 、 输 入 /输出 (I/O) 开销 和 通信 时 延 的 很 好 选择 。 需 要 付出 的 代价 是 编码 
和 解码 文本 的 时 间 ， 但 是 相 比 压缩 的 优点 ， 目 前 这 些 代价 可 以 承受 。 

这 里 我 们 主要 讨论 适用 于 信息 检索 环境 的 文本 压缩 方法 。 将 文本 存储 为 压缩 格式 的 主要 
障碍 是 信息 检索 系统 需要 随机 读 取 文 本 。 为 了 获得 在 压缩 文本 中 一 个 给 定 的 词 ， 有 些 压 缩 方 
法 需要 从 头 解码 整个 文本 直到 获得 需要 的 词 。 我 们 将 关注 那些 允许 随机 访问 文本 ， 而 不 需要 
从 头 解 压缩 的 方法 。 有 人 可 能 会 提出 ， 大 文本 可 以 被 切 分 为 很 多 块 ， 然 后 每 块 都 单独 利用 压 
缩 算法 进行 压缩 ， 从 而 就 可 以 保证 快速 地 随机 访问 每 个 块 。 然 而 有 效 的 压缩 方法 在 产生 压缩 
效果 前 都 需要 预先 处 理 一 些 文本 。 这 些 块 越 小 则 压缩 的 效果 可 能 会 越 差 。 要 达到 一 个 可 接受 
的 压缩 比 ， 最 好 的 情况 下 需要 提前 处 理 20~ 50 KB 的 文本 。 

在 信息 检索 环境 中 ， 采 用 压缩 带 来 了 一 些 限 制 ， 但 是 也 带 来 了 一 些 机 会 。 例 如 文本 是 由 
单词 组 成 的 ， 这 些 单词 符合 某 些 著名 的 统计 规则 ， 从 而 利用 这 些 优 点 可 以 比 大 多 数 通用 压缩 
算法 获得 更 好 的 压缩 比 ， 并 且 还 可 以 对 文本 随机 访问 。 

除了 空间 的 节省 外 ， 压 缩 算 法 还 有 其 他 的 一 些 特性 需要 考虑 ， 例 如 压缩 和 解压 缩 的 速 
度 。 在 很 多 情况 下 ， 解 压缩 速度 比 压 缩 速度 要 更 重要 。 例 如 对 于 文本 数据 库 中 的 文本 只 被 压 
缩 一 次 ， 但 是 会 从 硬盘 中 读 出 很 多 次 。 

压缩 方法 的 另外 一 个 特性 是 搜索 压缩 文本 而 不 需要 解压 缩 文本 的 可 能 性 。 在 这 种 情况 
下 ， 搜 索 压 缩 文本 可 能 会 更 快 ， 因 为 需要 扫描 的 文本 更 少 。 第 9 章 给 出 了 如 何 直接 搜索 压缩 
文本 的 高 效 方法 。 

我 们 首先 介绍 一 些 与 文本 压缩 相关 的 基本 概念 。 之 后 给 出 一 些 对 信息 检索 来 说 最 重要 的 
压缩 方法 ， 同 时 也 简要 地 介绍 其 他 一 些 相 关 的 压缩 技术 。 接 下 来 ， 我 们 讨论 主流 方法 的 相对 
优点 。 最 后 ， 我 们 会 涉及 在 结构 化 文本 压缩 方面 的 一 些 最 新 进展 。 


6.8.1 基本 概念 


文本 压缩 有 两 个 通用 方法 ， 统计 方法 〈statistical) MAT FR (dictionary-based) 的 
方法 。 统 计 方 法 估计 随后 出 现 的 每 个 文本 符号 的 出 现 概率 。 这 个 估计 越 准 确 ， 就 会 获得 越 好 
的 压缩 比 。 符 号 〈symbol) 可 能 是 字符 、 文 本 单词 或 者 固定 数量 的 字符 等 。 在 文本 中 所 有 
可 能 出 现 的 符号 的 集合 称 为 字母 表 (alphabet)。 估 计 概 率 的 任务 称 为 建 模 (modeling)。 因 
此 模型 (model) 就 是 下 一 个 符号 的 概率 分 布 ， 它 依赖 于 全 局 的 文本 统计 和 在 下 一 个 字符 之 
前 的 符号 。 使 用 这 些 概率 ， 这 些 符 号 可 以 转换 为 二 进 制 数字 ， 这 个 过 程 称 为 编码 (coding 或 
encoding) 。 解 码 器 使 用 同一 个 模型 解释 编码 器 的 输出 ， 从 而 找到 原始 的 符号 。 两 个 著名 的 
统计 编码 方法 是 霍 夫 曼 (Huffman) 编码 和 算术 编码 Carithmetic coding), 

字典 方法 (dictionary method) 识别 出 一 系列 可 以 被 引用 的 串 〈 这 些 串 通常 称 为 短语 
(phrase) ， 短 语 的 集合 称 为 字典 (dictionary))。 因 此 ， 在 文本 中 出 现 的 短语 可 以 用 指向 相 
应 字典 条 目的 指针 代替 ， 从 而 进行 压缩 。 字 典 方法 中 的 建 模 和 编码 过 程 并 不 存在 区 别 ， 也 没 


第 6 章 文档 : 语言 及 属性 。 171 


有 短语 的 明确 概率 。 最 为 著名 的 词典 方法 称 为 Ziv-Lempel 系列 方法 。 
预 处 理 成 为 最 近 的 一 个 趋势 ， 则 在 转换 文本 以 改进 压缩 比 。 这 类 方法 中 最 为 著名 的 是 
Burrows-Wheeler 变换 ， 它 重新 排列 文本 ， 使 得 简单 的 局 部 优化 方法 也 能 获得 很 好 的 压缩 。 


6.8.2 统计 方法 


统计 方法 定义 为 两 个 任务 的 组 合 ， 建 模 任务 和 编码 任务 ， 前 者 估计 每 个 后 续 字符 的 概 
率 ， 后 者 把 后 续 符 号 编码 成 模型 分 配给 它 的 概率 函数 。 建 模 任 务 往往 会 给 同一 个 符号 一 个 相 
同 的 基于 全 局 文本 统计 的 概率 ， 符 号 的 概率 也 可 以 依赖 于 它 前 面 的 几 个 符号 ， 甚 至 依赖 于 目 
前 为 止 处 理 过 的 所 有 文本 。 编 码 (code) 建立 每 个 符号 的 表示 〈 码 字 ，codeword) ， 而 码 字 
是 根据 概率 创建 的 。 克 劳 德 。 香农 (Claude Shannon) 在 信 源 编码 理论 [1452] 中 建立 了 模 
型 和 编码 之 间 的 关系 。 如 在 6. 5. 1 PPAR, BERRA TR. SASHA 
量 ， 这 个 结论 可 以 应 用 到 任何 基于 符号 出 现 的 概率 分 布 {p;) 的 编码 算法 中 。 压 缩 中 编码 的 
要 领 是 ,为 了 获得 更 好 的 压缩 比率 ， 越 频繁 的 符号 应 该 赋予 越 短 的 码 字 。 

实际 上 ， 如 果 模 型 给 出 了 一 个 很 偏 斜 的 分 布 ， 也 就 是 说 一 个 符号 的 概率 p. 比 其 他 符号 


WEA, ABA log, 六 会 很 小 。 如 果 编 码 器 赋 子 符号 一 个 短 的 码 字 ， 则 这 个 短 的 码 字 会 出 现 


很 多 次 (和 p 成 比例 地 )， 这 对 压缩 是 有 利 的。 一 个 重要 的 问题 是 ， 模 型 给 出 的 概率 p. 要 
接近 符号 ¢ 实际 的 出 现 概率 ， 否 则 编码 器 会 给 一 个 并 没有 真正 频繁 出 现 的 符号 一 个 短 的 码 
字 。 这 也 表明 ， 为 了 获得 更 好 的 压缩 ，1) 模型 必须 正确 地 估计 出 现 概 率 ; 2) 编码 器 必须 给 


符号 赋予 长 度 尽 可 能 接近 log, 5 


6.8.3 EHHE: 建 模 


压缩 模型 可 以 是 自 适应 的 (adaptive)、 静 态 的 (static) MERAH (semi-static); 基 
于 字符 的 或 者 基于 单词 的 。 在 本 节 中 ， 我 们 会 简要 地 讨论 这 些 模型 。 

|. 自 适应 的 、 静 态 的 和 半 静 态 的 模型 

自 适 应 模型 (adaptive model) 开始 没有 包含 关于 文本 信息 ， 并 且 随 着 压缩 进程 的 执行 
而 逐步 地 学 习 统计 分 布 。 当 前 的 模型 用 于 编码 每 个 新 的 符号 ， 在 编码 之 后 这 个 模型 再 根据 这 
个 新 的 符号 进行 更 新 。 自 适应 模型 只 需要 处 理 文本 一 遍 ， 而 且 除 了 压缩 文本 之 外 也 不 需要 存 
储 其 他 信息 。 解 压缩 器 从 压缩 文本 中 用 同样 的 方式 学 习 这 个 分 布 ， 在 解压 缩 每 个 新 的 符号 之 
前 ， 它 已 经 有 了 所 有 的 必需 信息 。 对 于 足够 多 的 文本 ， 这 样 的 模型 会 收敛 于 文本 的 真实 概率 
分 布 。 然 而 主要 缺点 是 ， 解 压缩 文件 必须 从 文件 的 开始 进行 ， 因 为 关于 分 布 的 信息 数据 是 在 
文件 中 增 量 存储 的 。 自 适应 模型 对 于 通用 压缩 程序 是 一 个 不 错 的 选择 ， 但 是 对 于 全 文 检索 来 
说 却 不 够 ， 因 为 必须 支持 对 压缩 文件 的 随机 访问 。 

静态 模型 (static model) 对 于 所 有 输入 的 文本 假设 一 个 平均 分 布 。 对 于 所 有 要 编码 的 
文本 ， 建 模 阶 段 只 进行 一 遍 〈 也 就 是 说 ， 不 管事 先 怎么 估计 概率 分 布 ， 之 后 对 于 所 有 要 压缩 
的 文本 都 使 用 这 个 分 布 )。 这 些 模 型 在 数据 偏离 初始 统计 假设 时 会 得 到 比较 差 的 压缩 比 。 例 
如 ， 对 于 英文 文学 足够 好 的 模型 ， 可 能 在 财经 文本 中 表现 很 差 ， 这 是 由 于 财经 文本 中 包括 了 
大 量 不 同 的 数字 ， 因 为 每 个 数字 都 相对 少见 ， 所 以 会 分 配 长 的 码 字 。 

+# ARKH (semi-static model) 并 不 会 假设 任何 的 数据 分 布 ， 而 是 在 第 一 遍 处 理 中 学 
习 这 个 分 布 。 在 第 二 遍 中 ， 文 本 会 根据 第 一 遍 中 学 到 的 分 布 来 分 配 码 字 进 行 压 缩 。 关 于 数据 
分 布 的 信息 必须 在 转换 压缩 文本 之 前 传送 给 解压 缩 程序 。 半 静态 模型 的 缺点 是 它们 必须 处 理 
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文本 两 遍 ， 并 且 关 于 数据 分 布 的 信息 必须 保存 下 来 以 被 解压 缩 程序 使 用 。 在 某 些 交互 数据 传 
输 的 情况 下 〈 例 如 聊天 服务 )， 处 理 文本 两 遍 可 能 并 不 实用 。 然 而 ， 半 静态 模型 却 在 信息 检 
索 中 有 重要 的 优点 : 因为 在 压缩 文件 中 每 一 点 都 使 用 同一 模型 ， 所 以 直接 访问 是 可 能 的 。 

一 个 简单 的 半 静 态 模型 是 基于 全 局 频率 信息 建立 的 。 令 EPEAT Ht, 中 符号 
c 的 频率 (出 现 的 总 数 )。 那 么 这 个 半 静 态 模 型 赋 给 c 的 概率 就 是 p= f./n。 根 据 式 (6-2), 
相应 的 炉 是 EE 一 >) Llog (Z) 。 这 个 模型 可 能 会 也 可 能 不 会 捕获 人 们 在 文本 中 希望 进行 压 
缩 的 元 余 信息 。 例如， 我 们 使 用 2G 的 TREC-3 文档 集 [704] 。 在 这 个 简单 模型 下 的 每 个 字 
FF AAC AE 4.5 位 ， 这 就 意味 着 压缩 比 不 能 少 于 55% 。 这 个 压缩 比 是 相当 差 的 ， 当 前 最 
先进 的 压缩 算法 可 以 获得 20%~40% 的 压缩 比 。 这 里 的 问题 并 不 是 没有 正确 地 估计 p.， 而 
是 利用 整体 频率 信息 的 模型 并 没有 完全 捕获 英语 文本 的 压缩 特性 。 

正如 前 面 解释 的 那样 ， 要 获得 更 好 的 压缩 比 就 要 改进 模型 中 的 概率 估计 。 在 前 面 的 例子 
中 ， 在 估计 < 的 概率 时 我 们 并 没有 考虑 c 周围 的 符号 。 例 如 ， 在 英语 中 ， 如 果 我 们 知道 之 前 
的 字符 是 “United Sta”， 我 们 就 可 以 对 之 后 的 字符 做 出 更 好 的 猜测 。 

2. 模型 的 阶 

模型 的 阶 是 指 用 来 估计 下 一 个 符号 的 概率 而 使 用 的 前 面 符号 的 个 数 。 在 & 阶 模型 中 ， 每 
个 符号 的 概率 是 由 上 下 文 的 函数 而 计算 的 ， 这 个 上 下 文 是 由 在 它 前 面 & 个 符号 构成 的 。 最 简 
单 的 情况 是 0 阶 模型 ， 在 这 个 模型 中 ， 符 号 概率 的 计算 是 与 上 下 文 无 关 的 〈 就 像 前 面 的 倒 
子 ) 。 使 用 高 阶 模型 使 得 压缩 的 效果 更 好 ， 因 为 它 可 能 更 好 地 估计 下 一 个 符号 ， 但 是 这 个 好 
处 并 非 没 有 代价 。 在 自 适应 压缩 中 ， 运 行 高 阶 模型 需要 更 多 的 内 存 。 一 个 很 好 的 例子 是 部 分 
匹配 预测 (Prediction by Partial Matching, PPM) 模型 ， 这 个 模型 可 以 获得 很 好 的 压缩 效 
果 。 在 半 静 态 压 缩 模型 中 ， 为 了 能 够 解压 缩 ， 较 大 的 模型 必须 和 压缩 文件 一 起 存储 起 来 ， 因 
此 随 着 的 增长 会 有 一 个 权衡 。 另 外 ， 利 用 高 阶 模型 的 文本 压缩 必须 从 开始 进行 解压 ， 因 为 
任何 直接 访问 都 需要 知道 前 面 的 & 个 符号 才能 进行 解压 缩 。 这 点 可 以 通过 每 个 时 刻 都 存储 上 
下 文 得 以 缓解 。 另 一 个 相关 技术 是 将 个 连续 的 文本 符号 看 做 一 个 更 大 的 字母 表 中 的 单个 符 
号 ， 并 在 这 个 新 的 序列 上 采用 0 阶 模型 进行 压缩 。 

继续 我 们 之 前 在 TREC-3 语料库 中 的 例子 ， 通 过 使 用 一 个 3 阶 模型 我 们 可 以 减少 相应 的 
Wi. ATLAS) 30%% 的 压缩 比 ， 但 是 这 个 模型 必须 存储 130 万 个 频率 。 为 了 得 到 25% 的 压缩 
比 ， 我 们 需要 将 模型 改 为 4 阶 ， 但 是 需要 存储 600 万 个 频率 。 因 此 这 里 需要 权衡 的 是 为 了 获 
得 高 阶 的 炉 ， 我 们 也 同时 需要 更 大 的 模型 。 

3. 基于 词 的 模型 

在 信息 检索 中 ， 存 在 一 个 更 好 的 解决 方案 将 文本 字符 分 组 从 而 利用 相对 较 小 的 模型 获得 
更 好 的 压缩 比 。 基 于 词 的 模型 (word-based modeling) 使 用 单词 来 代替 字符 作为 符号 ， 然 
后 使 用 0 阶 模型 建 模 单词 的 序列 。 通 常 ， 一 个 单词 是 在 集合 (AZ, aez) 中 的 连续 的 字 
符 串 ， 并 由 不 在 集合 中 的 字符 分 割 。 在 信息 检索 环境 中 使 用 基于 词 的 模型 有 很 多 的 原因 。 第 
一 ， 把 词 当做 符号 可 以 获得 更 好 的 压缩 比 ， 因 为 词 的 分 布 比 单个 字符 的 分 布 更 加 偏 斜 ， 基 于 
词 的 模型 使 用 0 阶 炳 就 可 以 获得 25% 左 右 的 压缩 比 。 第 二 ， 不 同 单词 的 个 数 相 比 文本 大 小 
不 会 太 大 〈 例 如 在 2GB 的 TREC-3 语 料 中 有 50 万 个 单词 )， 因 此 不 需要 很 大 的 模型 就 可 以 
达到 和 使 用 较 大 & 相同 的 效果 。 第 三 ， 大 多 数 检 索 系 统 是 依赖 单词 这 个 最 小 的 单元 (atom) 
建立 的 。 为 了 建立 索引 ， 单 词 已 经 存储 了 ， 因 此 如 果 也 用 在 压缩 模型 里 ， 会 进一步 减少 模型 
存储 的 影响 。 第 四 ， 在 响应 多 个 词组 合 的 查询 中 ， 单 词 频率 也 是 有 用 的 ， 因 为 最 好 的 查询 策 
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略 是 从 频率 最 低 的 单词 开始 (参见 11, 5 节 )。 

因为 文本 不 仅 是 由 单词 组 成 的 ， 而 且 还 包括 了 分 隔 符 ， 所 以 也 必须 给 它们 选 定 模型 Ab 
理 分 隔 符 有 很 多 不 同 的 方式 。 因 为 单词 和 分 隔 符 往往 一 个 紧 随 着 另外 一 个 ， 所 以 会 使 用 两 个 
不 同 的 字母 表 : 一 个 用 于 单词 ， 一 个 用 于 分 隔 符 。 考 虑 下 面 的 例子 “for my rose, a rose is 
a rose”。 在 基于 词 的 模型 中 ， 词 的 字母 表 是 {a，for，is，my，rose} ， 其 频率 分 别 是 2、1、 
1、1 和 3。 分 隔 符 的 字典 是 全 ,|_| ,| -|)， 其 频率 分 别 是 1 和 6《〈| -| 代表 一 个 空格 ) 。 一 
且 知 道 文本 是 由 单词 还 是 分 隔 符 开 始 的 ， 那 么 之 后 使 用 哪个 字母 表 就 没有 混淆 了 。 

在 自然 语言 文本 中 ， 大 多 数 情 况 下 单词 后 面 跟着 一 个 单独 的 空格 。 在 TREC-3 语 料 的 文 
本 中 ，70%~80% 的 分 隔 符 都 是 单个 空格 。 一 个 更 好 的 模型 是 把 某 个 单词 后 面 的 单个 空格 看 
做 是 这 个 单词 的 一 部 分 。 也 就 是 说 ， 如 果 一 个 单词 后 面 有 一 个 空格 ， 则 把 这 个 单词 和 空格 编 
码 为 同一 个 词 。 否 则 ， 需 要 在 编码 这 个 单词 之 后 再 编码 后 面 的 分 隔 符 。 在 编码 的 时 候 ， 解 码 
出 来 的 单词 会 认为 后 面 有 一 个 空格 ， 除 非 下 一 个 符号 也 是 一 个 分 隔 符 。 现 在 单词 和 分 隔 符 
(不 包括 单个 空格 ) 使 用 同一 个 字母 表 。 例 如 在 前 面 的 例子 中 ， (单个 ) 字母 表 就 是 
人 ,| |” ，a，for，is，my，rose} 。 因 为 字母 表 排 除了 单个 空格 ， 因 此 这 个 模型 称 为 无 空格 
单词 (spaceless word) 模型 。 

基于 词 的 模型 的 良好 性 质 可 以 用 大 多 数 西方 语言 中 的 著名 统计 规则 来 解释 。 在 6.5.2 47 
中 有 详细 的 解释 ， 在 这 里 我 们 将 简要 地 回顾 一 下 。 第 一 个 是 Heaps 法 则 [L730]， 此 法 则 说 
明 n 个 词 的 自然 语言 文本 的 词汇 表 大 小 V ARKE V=), AE 8 是 一 个 依赖 于 特定 文 
本 的 常数 。 对 于 TREC-3 文档 集 8 取 值 在 0.4 一 0.6， 这 意味 着 基于 词 的 模型 的 大 小 的 增长 
是 与 的 平方 根 成 正比 的 。 第 二 个 是 广义 齐 夫 法 则 [1794]， 该 法 则 说 明 最 常 出 现 的 第 i 个 
单词 出 现 OC(n/i?) K, HP a> 是 依赖 于 文本 的 一 个 常数 。 在 TREC-3 文档 集中 a 的 取 值 
在 1.4~2.0， 这 因为 词汇 表 的 频率 是 相当 偏 斜 的 ， 同 时 也 解释 了 为 什么 基于 词 的 模型 有 一 
个 非常 低 的 0 BY. 

在 某 些 情况 下 ， 对 于 全 文 数 据 库 ， 基 于 词 的 模型 可 能 会 产生 大 量 不 同 的 信 源 符号 ， 并 且 
必须 要 小 心 处 理 这 个 问题 。 例 如 ， 在 关于 词汇 分 析 的 一 节 〈 在 本 章 的 开始 ) 中 所 讨论 的 ， 必 
须 考 虑 是 否 把 一 串 数字 看 做 是 一 个 单词 。 如 果 是 这 样 ， 对 于 一 个 包含 100 万 篇 文档 的 文档 
集 ， 每 篇 文档 包含 文档 号 作为 标识 ， 那 么 会 生成 100 万 个 由 单独 数字 组 成 的 单词 ， 并 且 每 个 
数字 都 只 在 文档 集中 出 现 了 一 次 。 这 样 对 于 压缩 来 说 是 非常 低 效 的 。 一 个 可 能 的 解决 方案 是 
利用 空 〈 或 隐 含 的 ) 分 隔 符 把 长 的 数字 分 割 为 较 短 的 数字 。 这 种 做 法 可 以 减少 字母 表 的 大 
小 ， 从 而 在 压缩 比 和 解码 时 间 上 产生 可 观 的 改进 。 

最 后 需要 注意 的 、 很 重要 的 一 点 是 基于 词 的 模型 需要 长 文本 才能 体现 其 效率 (也 就 是 
说 ， 压 缩 一 个 单独 的 网 页 并 通过 网 络 传输 出 去 ， 这 些 模 型 并 不 能 胜任 )。 当 文本 比较 小 的 时 
fe (例如 小 于 1MB)， 存 储 词汇 表意 味 着 相对 大 的 空间 开销 。 然 而 对 于 一 般 的 信息 检索 任务 
这 并 不 是 问题 ， 因 为 文本 都 比较 大 ， 而 且 别 的 任务 ， 比 如 检索 和 查询 ， 也 会 使 用 词汇 表 。 信 
息 检 索 系 统 有 时 需要 把 某 些 文档 通过 网 络 传输 给 一 个 不 知道 全 局 半 静 态 模 型 的 客户 端 。 在 这 
种 情况 下 ， 最 好 是 解压 缩 这 个 文档 ， 然 后 利用 经 典 自 适应 技术 来 重新 压缩 它 。 





6. 8.4 统计 方法 : 编码 


编码 是 指 根据 由 模型 给 定 的 概率 分 布 而 获得 符号 的 表示 〈 码 字 )。 编 码 器 的 主要 思想 是 
给 频繁 的 符号 赋予 短 的 码 字 ， 给 不 频繁 符号 赋予 长 的 码 字 ， 使 出 现 概 率 为 p 的 字符 的 码 字 


长 度 尽 可 能 接近 log: Fe 正如 我 们 在 6837 PRN, WRI H HRE AS PRK 
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的 下 界 ， 因 此 编码 器 的 质量 可 以 由 其 获得 的 编码 长 度 与 箭 的 接近 程度 来 衡量 。 此 外 ， 还 有 一 
个 重要 的 因素 是 编码 和 解码 的 速度 。 有 些 时 候 ， 牺 牲 一 些 压缩 比 而 减少 编码 和 解码 的 时 间 也 
是 很 必要 的 。 

在 上 段 中 ， 为 了 简化 ， 我 们 假设 编码 就 是 符号 编码 。 符 号 编码 赋予 每 个 符号 一 个 码 字 
(由 整数 个 位 表示 )， 然 后 连接 连续 符号 的 码 字 而 组 成 编码 文件 。 编 码 的 最 低 要 求 是 唯一 
可 解码 的 (uniquely decodable)。 例 如 ， 有 三 个 信 源 符号 A、B 和 C， 并 且 分 配 码 字 如 下 : 
A—>0, B—1 和 C->01， 那 么 就 没有 办 法 分 辨 压缩 文本 “011” 代 表 的 是 ABB 还 是 CB 了 。 
然而 编码 A 一 00、B 一 11 和 C~~110， 就 是 唯一 可 解码 的 。 但是， 为 了 解码 “110000000”， 
我 们 必须 统计 0 的 总 数 来 决定 第 一 个 符号 是 B 还 是 C。 如 果 每 个 码 字 在 读 到 它 的 最 后 一 位 
时 就 可 以 立即 解码 ， 那 么 这 个 编码 称 为 即时 码 (instantaneous)。 或 者 说 没有 任何 一 
字 是 另 一 个 码 字 的 前 级 ， 因 此 即时 码 也 称 为 前 组 无 关 码 (prefix-free code) 或 者 是 前 级 码 
(prefix code) 。 

前 缀 码 比 较 好 的 可 视 化 方法 是 二 叉 树 〈 称 为 编码 树 ) 。 查 看 图 6-8 中 的 例子 。 需 要 编码 
的 符号 在 叶子 结 点 。 每 个 中 间 结 点 有 两 个 子 结 点 分 别 标记 为 0 和 1。 对 于 每 个 符号 ， 从 根 到 
叶子 的 路 径 就 拼写 出 了 它 的 码 字 。 

Æ kłam (Huffman coding) 就 是 对 于 给 定 的 概率 分 布 找到 最 佳 前 缀 编码 的 方法 。 也 
就 是 ， 令 (p) 是 一 人 
l. 的 码 字 ， 因此 码 字 的 平均 长 度 就 是 > 而 这 个 值 是 所 有 可 能 的 前 缀 编码 中 最 小 的 。 


另外 ， 需 夫 曼 编码 得 到 的 平均 码 字 长 度 比 由 糖 编码 多 出 的 长 度 小 于 1 位 。 这 个 开销 是 因为 必 
须 赋予 每 个 符号 一 个 整数 长 度 的 位 。 

半 项 态 的 基于 和 霍 夫 曼 的 压缩 方法 需要 处 理 文本 两 遍 。 在 第 一 遍 中 ， 模 型 决定 符号 的 概率 
分 布 并 且 根 据 概率 分 布 创建 一 个 编码 树 。 在 第 二 遍 中 ， 每 个 文本 符号 都 根据 编码 树 进行 纺 
码 。 而 自 适 应 霍 夫 曼 压缩 算法 只 需要 处 理 文本 一 遍 ， 其 过 程 中 不 断 增 量 地 更 新 编码 树 。 输 和 
文本 符号 的 编码 也 在 这 一 遍 文本 处 理 中 完成 。 除 了 不 适用 于 信息 检索 系统 外 ， 自 适应 土 夫 曼 
方法 也 是 相当 慢 的 ， 因 为 当 新 的 符号 读 人 时 更 新 编码 树 的 开销 很 大 。 

算术 编码 是 非 符 号 编码 的 一 个 例子 ， 也 就 是 说 ， 它 不 是 基于 给 符号 赋予 一 个 整体 的 码 字 
然后 把 这 些 码 字 连 接 在 一 起 。 在 算术 编码 中 ， 全 部 输入 文本 利用 一 个 在 0 一 1 的 实数 的 区 间 
来 表示 。 随 着 输入 文本 的 增多 ， 区 间 会 变 得 更 小 ， 并 且 用 来 指定 区 间 的 位 数 也 会 增多 。 因 为 
一 个 出 现 概率 高 的 符号 减少 的 区 间 长 度 要 比 出 现 概率 低 的 符号 减少 的 区 间 要 小 ， 因 此 可 以 获 





得 压缩 。 更 准确 地 说 ， 如 果 模型 给 出 的 连续 概率 是 p,，p;，…，p,， 那 么 算术 编码 会 产生 
一 个 大 小 为 P 一 pi Xp XX p, 的 [0，1) 中 的 区 间 ， 然 后 对 属于 这 个 区 间 中 的 任意 一 个 
二 进 制 数 编码 。 因 为 log: logs (5X X5-) log, 六 十 … 十 log 六， 所 以 对 概率 为 p, 


的 每 个 符号 利用 log, 六 位 进行 编码 的 目标 几乎 可 以 完美 地 实现 。 因 此 算术 编码 器 可 以 获得 


和 文本 的 入 非常 相近 的 编码 。 算 术 编 码 的 更 多 细节 可 以 参考 本 章 最 后 的 参考 文献 。 

然而 在 信息 检索 领域 内 ， 算 术 编 码 相 比 霍 夫 曼 编码 有 几 个 缺点 。 第 一 ， 算 术 编 码 比 霍 夫 
曼 编码 慢 很 多 ， 特 别 是 使 用 静态 或 半 静 态 模 型 的 时 候 ; 第 二 ， 因 为 算术 编码 不 是 符号 编码 ， 
所 以 不 能 利用 算术 编码 在 压缩 文件 的 中 间 开 始 解压 。 而 堆 夫 曼 编 码 不 同 ， 如 果 使 用 静态 或 半 
静态 模型 时 ， 它 可 以 在 压缩 文本 中 任意 位 置 开始 的 码 字 进行 解码 。 特 别 是 第 二 个 原因 使 得 算 
术 编 码 无 法 在 信息 检索 领域 中 使 用 。 
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综 上 所 述 ， 半 静态 的 、 基 于 词 的 霍 夫 曼 编 码 是 信息 检索 系统 的 一 个 很 好 的 选择 ， 因 为 它 
综合 了 很 多 优点 : 非常 好 的 压缩 率 、 压 缩 文本 的 直接 访问 和 很 好 的 压缩 与 解压 缩 性 能 。 当 需 
要 直接 搜索 压缩 文本 时 ， 霍 夫 曼 编码 也 可 以 获得 很 高 的 效率 。 然 而 ， 最 近 的 密集 编码 
(dense coding) 方法 提供 了 霍 夫 曼 编 码 之 外 的 另外 一 种 选择 ， alata he 
但 是 却 提供 了 更 快 的 搜索 ， 同 时 提供 了 更 简单 的 操作 并 改进 了 直接 访问 。 下 面 将 集中 讨论 


于 词 的 半 静 态 霍 夫 曼 编码 和 密集 编码 。 

1. 霍 夫 曼 编码 ， 

图 6-8a 展示 了 利用 霍 夫 曼 编码 压缩 单词 的 一 个 例子 。 在 这 个 例子 中 ， 单 词 表 中 的 符号 
集合 是 (',|_|1”，a，for，is，my，rose}， 相 应 的 频率 分 别 是 1、2、1、1、1 和 3( 我 们 假 
设 使 用 无 空格 单词 模型 ， 因 此 分 隔 符 “|_| ”并 不 是 单词 表 的 一 部 分 ) 。 


解压 缩 是 按照 下 面 的 方式 进行 的 。 压 缩 文件 的 位 流 从 左 到 右 遍 历 一 遍 。 在 压缩 文件 中 读 
取 的 位 序列 也 会 从 根 开始 遍历 霍 夫 曼 编码 树 。 每 当 到 达 一 个 叶子 结 点 时 ， 对 应 的 单词 或 者 分 
隔 符 组 成 解压 缩 符号 的 一 部 分 ) 会 被 打印 出 来 ， 之 后 会 重新 遍历 编码 树 。 因 此 在 图 6-8a 
中 ， 在 压缩 文件 中 的 码 字 “110” 会 被 解压 缩 为 符号 “for ” 。 





原始 文本 : for my rose, a rose is a rose 原始 文本 : for my rose, a rose is a rose 
压缩 文本 : 110 010 00 011 10 00 111 10 00 压缩 文本 : 010 000 10 001 11 10 011 11 10 
a) b) 


图 6-8 a EREE AKAAERE; b) 规范 Canonica) ERSA 


为 了 创建 霍 夫 曼 树 ， 首 先 需 要 得 到 构成 字母 表 的 符号 ， 以 及 它们 在 需要 压缩 的 文本 中 的 
概率 分 布 。 然 后 自 底 向 上 地 操作 ， 最 开始 为 符号 表 中 的 每 个 符号 创建 一 个 结 点 ， 这 个 结 点 包 
括 这 个 符号 以 及 对 应 的 概率 〈 或 频率 ) 。 这 时 候 ， 形 成 了 一 个 仅 含 一 个 结 点 的 树 组 成 的 森林 ， 
这 些 树 的 概率 加 起 来 等 于 1。 之 后 ， 两 个 带 有 概率 最 小 的 结 点 被 合并 ， 也 就 是 说 ， 它 们 成 为 
新 创建 的 父 结 点 的 两 个 子 结 点 。 这 个 父 结 点 的 概率 就 是 其 两 个 子 结 点 概率 的 和 。 重 复 这 样 的 
操作 ， 合 并 当前 森林 中 概率 最 小 的 一 对 树 根 ， 直 到 仅 剩 下 一 棵 树 ， 这 棵 树 就 是 最 终 的 编码 
树 。 通 过 推迟 合并 拥有 高 概率 的 结 点 对 ， 并 把 它们 放 在 靠近 根 结 点 的 位 置 ， 从 而 使 得 它们 的 
码 字 更 短 。 每 个 内 部 结 点 的 两 个 分 支 都 标记 为 0 和 1。 给 定 V 个 符号 和 它们 在 文本 中 的 相应 
频率 ， 创 建 得 夫 曼 树 算 法 的 时 间 复 杂 度 是 O(VlogV) 

对 于 一 个 给 定 的 概率 分 布 ， 对 应 的 霍 夫 曼 树 并 不 是 唯一 的 。 交 换 任 何 一 个 内 部 结 点 的 
左 、 右 子 树 都 会 得 到 一 个 拥有 相同 平均 码 长 的 不 同 编码 树 。 对 于 大 多 数 应 用 来 说 ， 一 般 不 会 
使 用 任意 的 编码 树 ， 它 们 会 选择 称 为 规范 树 (canonical tree) 的 编码 树 ， 在 规范 树 中 任何 结 
点 的 右 子 树 不 能 高 于 它 的 左 子 树 。 图 6-8b 就 展示 了 一 个 规范 树 的 例子 。 规 范 置 夫 曼 树 通过 
在 树 的 每 个 层 使 用 信 源 符号 和 另外 一 个 数字 ， 可 以 被 很 高 效 地 存储 。 这 一 点 可 以 在 图 中 很 容 
易 地 看 出 来 : 如 果 我 们 按照 叶子 结 点 从 左 到 右 顺 序 给 定 信 源 符号 ， 以 及 在 每 层 中 叶子 结 点 的 
个 数 ( 也 就 是 从 最 底层 到 最 顶层， 分 别 是 4、2、0、0)， 有 了 这 些 信息 就 足够 重新 构建 这 棵 
霍 夫 曼 树 。 规 范 管 夫 曼 树 也 能 够 高 速 解码 。 在 信息 检索 环境 中 很 需要 这 些 特点 。 关 于 规范 霍 
夫 曼 树 的 更 多 细节 可 以 在 本 章 最 后 的 参考 文献 中 找到 。 
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2. 字 节 霍 夫 曼 编码 

和 霍 夫 曼 提出 的 原始 方法 很 自然 地 就 导向 了 一 个 二 进 制 编码 树 ， 因 为 相 比 多 分 支 
Chigher-arity) 编码 树 它们 可 以 获得 最 好 的 压缩 比 。 然 而 ， 也 可 以 对 每 个 符号 都 赋予 整个 字 
T (byte WARS. XH, BREA HERA 2 而 是 256。 

如 果 考 虑 一 个 基于 词 的 模型 ， 使 用 字 节 代替 位 进行 编码 ， 会 使 得 压缩 比 降 低 到 30% Ze 
E. 但 是 这 种 方法 仍然 具有 竞争 力 ， 就 像 我 们 在 后 面 将 要 介绍 的 一 样 。 作 为 交换 ， 字 节 替 夫 
曼 编码 的 解压 缩 速度 比 二 进 制 堆 夫 曼 编码 更 快 ， 因 为 它 不 需要 位 的 移 位 和 掩 码 操作 。 

字 仙 和 趣 夫 曼 编 码 的 另 一 个 优点 是 在 压缩 文本 中 直接 搜索 会 变 得 更 简单 ， 因 为 可 以 像 标准 
字符 串 匹 配 那样 基于 字 节 地 进行 操作 。 在 压缩 文本 中 搜索 某 个 单词 的 时 候 ， 我 们 首先 要 在 词 
汇 表 中 找到 它 。 这 可 以 通过 序列 扫描 获得 〈 利 用 在 第 9 章 中 介绍 的 任意 一 种 技术 ) 或 者 创建 
一 个 可 以 加 速 搜索 的 数据 结构 。 注 意 能 够 接受 序列 扫描 的 原因 是 词汇 表 的 增长 是 比较 慢 的 。 
对 于 2G 的 TREC-3 文档 集 ， 仅 仅 需 要 5M 的 词汇 表 ， 在 1/10 秒 内 就 可 以 扫描 完成 〈 词 汇 表 
一 般 是 放 在 内 存 中 的 )。 一 旦 我 们 在 词汇 表 找 到 这 个 词 后 ,我 们 就 会 在 霍 夫 曼 树 中 标记 相应 
的 叶子 结 点 。 然 后 ， 如 同 解压 缩 时 一 样 操作 文本 ， 只 是 我 们 到 达 叶 子 结 点 不 需要 输出 符号 ， 
而 是 报告 要 搜索 的 单词 出 现 。 这 个 过 程 是 很 简单 的 ， 仅 仅 扫描 压缩 文本 中 所 有 的 字 节 一 次 ， 
并 且 在 扫描 每 个 字 节 的 时 候 仅 有 非常 少量 的 工作 。 因 此 ， 搜 索 的 速度 是 非常 快 的 。 特 别 是 ， 
它 比 在 原始 文本 中 进行 序列 扫描 要 好 得 多 ， 因 为 只 需要 原来 30% 的 I/O 操作 。 需 要 注意 的 
是 ， 对 于 位 霍 夫 曼 编 码 也 可 以 使 用 相同 的 方法 ， 但 是 位 操作 使 得 这 个 方法 会 慢 一 些 〈 如 果 一 
次 要 立即 处 理 多 个 位 时 会 变 得 更 加 复杂 ) 。 

这 个 方法 可 以 很 好 地 扩展 到 搜索 一 组 词 的 集合 。 例 如 ， 搜 索 一 个 单词 的 所 有 变 体 或 者 搜 
索 一 个 扩展 的 查询 。 这 种 情况 下 ， 我 们 用 多 模式 搜索 算法 〈 参 看 第 9 章 ) 扫描 词汇 表 ， 然 后 
标记 我 们 需要 报告 的 所 有 单词 。 一 旦 完成 这 些 工作 ， 扫 描 压 缩 文 本 的 过 程 就 一 样 了 。 

最 后 ， 假 设 我 们 希望 搜索 更 复杂 的 模式 ， 例 如 通配符 、 字 符 的 范围 ， 其 至 正则 表达 式 。 
而 且 ， 假 设 我 们 希望 在 查找 结果 中 人 允许 一 定数 量 的 错误 。 所 有 这 些 模型 都 有 高 效 的 序列 搜索 
算法 ， 将 在 第 9 章 中 介绍 。 我 们 仅仅 需要 在 词汇 表 上 利用 这 些 序列 算法 ， 然 后 每 当 在 整个 词 
汇 表 中 找到 一 个 匹配 ， 我 们 就 会 标注 这 个 单词 。 注 意 这 些 工作 只 是 在 词汇 表 上 进行 ， 相 比 整 
个 文本 的 工作 量 是 很 少 的 。 一 旦 标记 好 相关 的 词 ， 我 们 只 需要 在 压缩 文本 中 执行 简单 的 字 节 
扫描 算法 。 

搜索 的 所 有 复杂 性 都 包含 在 词汇 表 扫 描 中 。 越 复杂 的 模式 序列 ， 对 应 的 搜索 算法 就 越 
慢 ， 但 是 这 些 算法 只 应 用 在 整个 文本 中 的 很 小 一 部 分 (词汇 表 )。 搜 索 的 主要 部 分 对 于 复杂 
度 并 不 敏感 。 因 此 ， 当 涉及 复杂 模式 时 搜索 压缩 文本 比 搜索 原始 文本 要 快 8 倍 ， 而 涉及 搜索 
简单 模式 时 快 3 倍 (因为 减少 了 WO 开销 )。 - 

我 们 之 前 仅 考 虑 了 单个 词 的 查询 〈 或 者 匹配 一 个 词 的 复杂 模式 )。 之 前 提 到 的 方案 可 以 
很 好 地 扩展 到 严 配 短语 和 一 般 的 模式 串 ， 但 是 这 些 技术 需要 更 加 复杂 的 模式 匹配 概念 ， 在 第 
9 章 中 我 们 会 进行 讨论 。 在 本 章 中 我 们 仅仅 考虑 简单 的 情况 。 

尽管 这 个 搜索 技术 非常 简单 并 且 具 有 一 致 性 ， 但 它 对 于 单个 词 的 查询 〈 一 般 来 说 ， 简 单 
查询 比 复杂 查询 更 频繁 ) 表现 得 更 好 。 我 们 可 以 在 词汇 表 中 找到 单词 ， 获 得 它 的 码 字 ， 然 后 
使 用 在 9.5 节 中 的 任意 字符 串 匹 配 算 法 在 压缩 文本 中 查找 码 字 。 这 样 就 可 以 使 用 不 检查 就 跳 
过 某 些 字 节 的 更 快 的 搜索 技术 。 例 如 ，Horspool 字符 串 匹 配 算 法 (参见 9. 5. 1 节 ) 在 这 个 
情况 下 可 以 快 3 倍 。 

不 幸 的 是 ， 这 个 算法 不 能 适用 于 霍 夫 曼 编 码 。 因 为 有 可 能 两 个 码 字 的 结合 包括 第 三 个 码 
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字 ， 这 种 情况 会 错误 地 识别 为 搜索 命中 。 例 如 在 二 进 制 编码 中 ， 有 如 下 编码 : A 一 0、B-> 
10, C110 和 D>111。 那 么 DB 可 以 编码 为 “11110”。 如 果 我 们 查找 C， 我 们 会 把 它 转 换 
为 搜索 “110”， 当 组 合 D 和 B 的 码 字 时 ， 我 们 会 错误 地 报告 一 次 搜索 命中 。 而 且 ， 除 非 我 
们 从 开始 重新 扫描 文本 ， 否 则 我 们 无 法 检验 出 搜索 命中 是 否 是 误 报 的 。 

下 面 介绍 密集 编码 ， 它 是 字 节 霍 夫 曼 编码 之 外 的 另 一 个 选择 ， 可 以 解决 上 面 的 问题 ， 而 
且 也 能 在 其 他 复杂 搜索 中 使 用 。 实 际 上 ， 密 集 编码 在 各 个 方面 都 优 于 字 节 霍 夫 曼 编码 。 

3. 密集 编码 

密集 编码 比 字 节 霍 夫 曼 编码 更 简单 ， 和 基于 词 的 模型 结合 时 ， 产 生 与 之 相当 的 压缩 表 
现 。 它 也 是 给 高 频 符 号 以 更 短 的 码 字 ， 然 而 这 里 的 编码 只 依赖 于 符号 的 排名 (rank)， 也 就 
是 按 频 率 的 降序 排列 后 的 位 置 ， 而 不 是 依赖 于 它 的 实际 频率 。 密 集 编 码 可 以 看 做 是 整数 变 长 
编码 ， 这 也 是 一 种 常见 的 压缩 解决 方案 。 然 而 ， 当 用 它 来 压缩 自然 语言 文本 时 ， 密 集 编 码 经 
过 了 仔细 地 研究 ， 重 点 在 压缩 文本 中 快速 地 直接 搜索 。 

一 个 简单 的 密集 编码 如 下 所 示 。 将 符号 按照 频率 的 降序 排列 ， 然 后 根据 它们 的 位 置 赋予 
它们 之 后 的 数字 : 第 i 个 最 常见 的 符号 赋予 数字 i 一 1。 这 个 数字 写成 一 个 变 长 的 字 节 序列 ， 
其 中 每 个 字 节 中 的 7 位 用 来 编码 数字 ， 最 高 的 1 位 保留 下 来 作为 每 个 码 字 的 最 后 字 节 的 
标示 o 

更 准确 地 说 ， 排 序 在 1 一 128 的 符号 的 码 字 是 0 一 127， 并 且 它 们 都 获得 一 个 单字 节 码 字 。 














这 个 字 节 也 是 它们 码 字 的 最 后 一 个 字 节 ， 因 表 6-1 密集 编码 

此 它们 最 高 一 位 设置 为 1 (也 就 是 加 上 128). 词 序号 码 字 字 节 词 数 
我 们 把 最 高 位 设置 为 1 的 字 节 称 为 停止 符 1 (128) 1 
《stopper) ， 因 为 它们 表示 码 字 的 结束 。 其 他 2 (129) 1 

的 字 节 称 为 持续 符 〈continuer) 。 因 此 排 位 为 T ~ 128 
1 的 符号 获得 码 字 (128) = (0 十 128) ， 排 在 (254 ! 

第 2 的 符号 获得 码 字 (129) 一 (1 十 128)， 按 — «os - 

照 上 面 的 规律 ， 直 到 排序 为 128 的 符号 获得 130 (0, 129) 5 

E (255). HEAP M 128+ 1=129 到 128+ aa we 

128°=16 512 的 符号 被 赋予 从 (0，128》 到 256 co, 255) A 

(127, 255) 的 二 字 节 码 字 。 注 意 这 个 方法 相 257 (1, 128) 2 1282 
对 于 单纯 的 基于 128 数字 有 点 奇怪 ， 因 为 数 258 (1, 129) 2 

字 0 出 现在 数字 前 。 第 一 个 3 字 节 的 码 字 “ 

(0, O, 128) 被 赋予 第 16513 个 符号 ， 并 且 16 511 (127, 254) 2 

直到 第 1284+128 +128 =2 113 664 个 符号 ， 16 512 (127, 255) 2 

它 被 赋予 码 字 (127, 127, 255), MA 16 513 ‘0, 0, 128) 3 

本 词汇 表 能 大 到 需要 4 字 节 的 码 字 。 表 6-1 和 ™ 128° 
给 出 了 利用 密集 编码 的 示例 。 2113 664 | 2 








需要 注意 的 是 ， 因 为 最 高 位 作为 一 个 码 字 结束 的 信号 ， 因 此 这 个 编码 自然 就 是 一 个 前 级 
编码 : 一 个 码 字 不 可 能 是 另外 一 个 码 字 的 前 级 。 根 据 它 们 的 最 高 位 ， 使 得 较 短 码 字 的 停止 符 
字 节 不 可 能 和 较 长 码 字 的 持续 符 字 节 相 同 。 因 此 ， 密 集 编码 通过 一 个 简单 的 方式 获得 了 霍 夫 
曼 编 码 的 两 个 重要 性 质 〈( 是 前 缀 编码 并 且 偏 爱 更 加 和 常见 的 符号 ;， 但 这 个 编码 显然 不 是 最 
优 的 。 

密集 编码 有 一 个 很 好 的 性 质 ， 使 得 它们 成 为 信息 检索 领域 中 最 受 关注 的 编码 : 它们 是 自 
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同步 的 〈self-synchronizing) 。 这 意味 着 ， 给 定 压 缩 文本 中 的 任何 一 个 位 置 ， 它 都 非常 容易 
地 判断 出 下 一 个 或 者 前 一 个 码 字 的 开始 ， 这 是 由 于 字 节 最 高 位 的 缘故 。 而 对 于 一 般 的 霍 夫 曼 
编码 这 是 不 可 能 的 。 鲍 如 ， 对 于 (二进制 ) BRAM “10”, “01”, “11”, “000” 
和 “001”。 从 “11010101010101” 的 中 间 解 码 文本 是 不 可 能 的 ， 我 们 必须 从 文本 的 开始 去 观 
察 如 何 开始 编码 。 

我 们 一 直 坚 持 认 为 埠 夫 曼 编 码 可 以 随机 访问 。 确 实 ， 用 和 霍 夫 曼 编码 的 文本 可 以 从 任意 一 
个 码 字 的 开始 位 置 进行 解码 ， 而 不 是 从 任意 位 置 。 密 集 编码 在 这 个 意义 上 更 加 强大 ， 因 为 它 
可 以 从 任意 位 置 开始 解码 ， 不管 它 是 不 是 一 个 码 字 的 开始 。 这 只 是 寻找 之 前 或 之 后 的 一 个 停 
止 符 的 问题 ， 之 后 就 可 以 从 那里 开始 进行 解码 了 。 特 别 地 ， 给 定 任意 一 个 位 置 ， 通 过 反复 定 
位 之 前 的 一 个 停止 符 并 且 每 次 解码 一 个 码 字 ， 可 以 在 这 个 位 置 上 进行 反 向 解码 。 对 于 霍 夫 螺 
编码 来 说 ， 即 使 给 定 了 码 字 的 开始 ， 这 也 是 不 可 能 的 。 这 个 特点 非常 有 趣 ， 例 如 ， 显 示 压 缩 
文档 中 感 兴趣 的 一 个 位 置 周 围 的 片段 。 

这 个 同步 性 质 使 得 密集 编码 可 以 实现 字 节 霍 夫 曼 编码 无 法 实现 的 更 快速 的 查找 。 为 了 查 
找 一 个 词 ， 我 们 需要 获得 它 的 码 字 ， 然 后 就 可 以 使 用 任意 的 字符 串 匹 配 算 法 在 压缩 文件 中 搜 
索 了 。 根 据 最 高 位 ， 很 容易 区 分 虚假 的 搜索 命中 和 真实 的 搜索 命中 : 查询 码 字 的 最 后 停止 符 
必须 匹配 文档 中 的 停止 符 ( 码 字 的 结束 )。 卡 假 命 中 只 有 在 一 个 码 字 是 另 一 个 码 字 的 后 缀 时 
才 发 生 。 也 就 是 说 ， 假 设 我 们 查询 码 字 “a b cs”， 我 们 在 这 个 码 字 的 停止 符 字 节 上 画 了 线 。 
如 果 在 编码 中 存在 码 字 “d ab c”， 那 么 我 们 可 能 在 文本 “…e f Ed a bc.…” 中 找到 我 们 的 
码 字 。 然 而 只 要 查看 一 下 之 前 的 文本 ,，“d” 并 不 是 一 个 停止 符 ， 因 此 我 们 匹配 了 一 个 不 同 的 
码 字 。 这 样 一 个 快速 简单 的 检查 在 霍 夫 受 编码 中 是 不 可 能 实现 的 。 

通过 合并 码 字 然后 搜索 这 个 组 合 ， 使 得 搜索 短语 也 是 可 能 的 (单个 字符 串 匹配 算法 会 随 
着 搜索 字符 串 的 增长 而 更 快 ， 参 见 第 9 章 )。 搜 索 复杂 模式 可 以 用 下 面 两 种 方法 。 一 是 通过 
使 用 同样 的 方法 (标记 词汇 表单 词 ， 然 后 按 字 节 搜 索 文本 )， 或 者 通过 收集 所 有 感 兴 趣 的 
单词 的 码 字 ， 然 后 对 它们 同时 进行 多 模式 匹配 。 随 着 模式 数量 的 增长 ， 这 种 类 型 的 搜索 
会 变 差 ( 见 第 9 章 ) ， 因 此 当 搜 索 词 数量 适中 时 ， 它 比 简 单 的 基于 字 节 搜索 的 方法 可 能 好 
也 可 能 差 。 

(s, c) 密集 编码 

在 不 损失 任何 性 能 的 前 提 下 ， 改 进 密集 编 码 的 压缩 表现 也 是 有 可 能 的 。 这 个 编码 将 0 一 
127 的 值 分 配给 持续 符 (continuer) 字 节 ， 将 128~255 的 值 分 配给 停止 符 字 节 。 这 个 划分 
是 任意 的 ， 并且 可 以 修改 为 c 个 持续 符 和 s 个 终止 符 , 满足 c 十 二 256。 通 过 考 虚 字 节 的 数 
值 ， 停 止 符 和 持续 符 仍 是 可 以 区 分 开 来 的 。 现 在 ， 前 ; 个 最 常 出 现 的 符号 用 一 个 字 节 编码 ， 
后 面 的 sc 个 用 2 个 字 节 编码 ， 再 后 面 的 se? 个 用 3 个 字 节 编码 ， 以 此 类 推 。 在 TREC 文档 集 
的 实验 中 ，s 的 最 优 值 为 185 一 200。 利 用 这 些 最 优 值 ， 密 集 编码 的 压缩 率 非 常 接 近 于 字 节 和 霍 
夫 曼 编码 ( 仅 差 了 0.5%~1%). 

寻找 最 优 s 和 * 的 值 代价 并 不 高 。 假 设 V 个 符号 已 经 根据 其 频率 f; 倒序 排列 。 我 们 首 
先 在 第 一 遍 中 计算 累计 频率 ，F, 二 0 和 下 二 F; 1 十 fi;。 然 后 用 给 定 的 (s，c) 组 合 进行 压缩 
的 文件 长 度 是 : 





1X F, +2 (Fase — FO +38 X (Fosete? + Fee) Hee 
上 面 的 和 式 仅 有 OUog.V) 项 ， 并 且 也 很 容易 计算 出 所 有 256 种 可 能 的 〈s*，c) 组 合 来 得 到 
最 短 压 缩 文件 的 组 合 。 
在 本 章 的 开始 我 们 提 到 ， 在 信息 检索 系统 中 使 用 压缩 的 唯一 缺点 可 能 是 实现 复杂 度 。 在 
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这 方面 ， 密 集 编码 也 有 优势 ， 因 为 它们 比 处 理 霍 夫 曼 编码 更 简单 。 例 如 ， 不 需要 创建 也 不 需 
要 存储 编码 树 ; 仅仅 存储 词汇 表 就 足够 了 。 一 个 简单 的 代数 运算 就 可 以 将 词 的 排序 转换 为 纺 
码 ， 反 之 亦 然 。 

总 之 ， 密 集 编码 可 以 获得 几乎 与 字 节 霍 夫 曼 编 码 相同 的 压缩 率 ， 并 且 也 有 和 霍 夫 曼 编码 所 
有 的 有 利 特征 。 然 而 ， 密 集 编码 的 编程 和 操作 更 加 简单 和 快捷 ， 有 很 强 的 同步 属性 ， 并 且 可 
以 快速 搜索 。 位 霍 夫 曼 编 码 仍然 是 一 个 不 错 的 选择 ， 因 为 它们 可 以 获得 更 好 的 压缩 比 。 


6.8.5 字典 方法 


字典 方法 通过 把 一 组 连续 的 符号 (或 短语 ) 用 一 个 指向 字典 条 目的 指针 代替 ， 从 而 获得 
压缩 效果 。 因 此 在 字典 方法 的 设计 中 ， 最 主要 的 问题 是 字典 条 目的 选择 。 短 语 的 选择 可 以 通 
过 静态 、 半 适应 〈semiradaptive) 或 自 适应 算法 完成 。 最 简单 的 字典 方案 是 使 用 包括 短 词组 
的 项 态 字 典 。 静 态 字 典 编码 非常 快 ， 因 为 它们 几乎 不 费力 气 就 可 以 获得 少量 的 压缩 。 一 个 以 
多 种 形式 多 次 提 到 的 例子 是 双 字 母 组 合 编码 (digram coding)， 这 种 方法 选择 一 对 词 ， 然 后 
利用 特殊 的 字符 代替 。 静 态 字 典 很 少 能 够 非常 有 效 ， 因 为 适合 一 篇 文本 的 字典 可 能 对 另 一 篇 
文本 并 不 适用 。 

自 适 应 字典 方法 更 加 成 功 。 这 种 类 型 算法 最 出 名 的 技术 是 Ziv-Lempel 系列 的 压缩 算法 。 
在 Ziv-Lempel 压缩 算法 中 ， 字 典 随 着 文本 压缩 的 过 程 创建 。 反 人 到 字典 中 的 字符 串 属 于 已 
经 处 理 过 的 文本 。 根 据 不 同 的 Ziv-Lempel 压缩 算法 ， 会 引用 不 同 的 子 串 。 在 LZ77 压缩 算 
法 中 (这 个 算法 在 很 多 广 为 流 行 的 压缩 软件 中 得 到 了 实现 ,例如 zip. pkzip. gzip, winz- 
ip. aj), 已 经 处 理 过 的 任意 文本 都 可 以 称 为 候选 短语 ， 因 此 可 以 被 引用 。 另 外 一 些 变 
化 允许 产生 更 少 的 短语 ， 这 样 既 可 以 加 速 压缩 过 程 ， 还 可 以 减少 指向 字典 的 指针 的 大 小 。 

因为 它们 的 速度 、 内 存 的 节省 以 及 较 高 的 压缩 比 ，Ziv-Lempel 算法 作为 通用 压缩 算法 
非常 流行 。 然 而 ， 它 们 也 与 在 信息 检索 领域 中 使 用 的 其 他 自 适 应 统计 模型 具有 相同 的 缺点 : 
在 随机 位 置 上 访问 压缩 文本 变 得 非常 困难 。 在 信息 检索 环境 中 ， 半 静态 的 、 基 于 词 的 统计 方 
法 在 各 个 方面 都 优 于 Ziv-Lempel 方法 。 

对 于 信息 检索 来 说 ， 更 有 了 吸引 力 的 是 Re-Pair 压缩 方法 ， 这 是 一 个 半 静 态 字 典 技术 ， 它 
先 找 到 最 常 出 现 的 一 对 符号 ， 然 后 用 一 个 新 的 符号 来 替代 它们 。Re-Pair 方法 的 第 一 步 是 为 
字母 表 中 的 每 个 符号 赋予 一 个 整数 ， 然 后 将 文本 重 写 为 相应 的 整数 序列 。 然 后 友人 代 进行 ， 最 
频繁 出 现 的 连续 的 数字 对 A. B 首先 被 识别 出 来 。 规 则 C 一 A，B 将 一 个 新 的 整数 C 插入 到 
字典 中 ， 然 后 所 有 A+ B 的 出 现 都 会 被 C 来 代替 〈C 称 为 短语 (phrase))。 这 个 过 程 一 直 重 
复 ， 直 到 没有 连续 对 在 文本 中 重复 出 现 。 注 意 像 C 这 样 的 短语 也 可 能 根据 规则 E->D.，C 参 
与 到 新 的 短语 中 。 因 此 这 个 字典 可 以 看 做 是 短语 的 二 叉 层 次 结构 ， 其 中 叶子 是 字母 表 中 的 符 
号 ， 中 间 结 点 是 根据 其 他 短语 或 符号 建立 的 。 一 旦 获得 最 后 的 序列 ， 可 以 停止 压缩 ， 也 可 以 
进行 下 一 步 的 0 阶 压缩 。 

Re-Pair 压缩 方法 能 够 获得 非常 好 的 压缩 比 ， 并 且 它 可 以 简单 地 在 任意 位 置 开 始 解压 
缩 文 本 : 它 需 要 的 只 是 序列 的 短语 标识 ， 然 后 利用 字典 输出 对 应 的 符号 序列 。 它 的 主要 
缺点 是 压缩 非常 慢 ， 并 且 需 要 大 量 的 内 存 。 文 本 集 必 须 分 块 压缩 ， 使 得 每 块 都 可 以 在 内 
存 中 处 理 。 

然而 ， 有 一 种 Re-Pair 方法 对 于 信息 检索 应 用 非常 有 吸引 力 。 如 果 我 们 将 文本 看 做 是 词 
的 序列 ， 并 运用 和 整数 序列 压缩 同样 的 算法 ,那么 虽然 压缩 率 会 差 一 些 ， 但 是 在 字典 中 的 所 
有 的 短语 都 是 词 的 序列 。 更 准确 地 说 ， 它 们 是 文本 中 的 频繁 短语 。 这 个 字典 可 以 应 用 于 短语 
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浏览 (phrase browsing)， 从 而 使 得 用 户 可 以 在 文本 集 的 字典 中 浏览 从 而 找 出 相关 的 短语 。 
例如 ， 用 户 可 能 写 下 如 “United” 这 样 一 个 词 ， 然 后 查看 在 文本 所 有 出 现在 它 后 面 的 多 于 一 
次 的 词 。 利 用 这 个 方法 ， 有 可 能 识别 出 在 文本 中 感 兴趣 的 短语 是 “United Nations”, “Unit- 
ed States” 和 “Manchester United”。 例 如 ， 如 果 用 户 选 择 了 第 一 个 短语 ， 那 么 他 会 知道 还 
FER “United Nations Development Program” 和 “United Nations Environment Pro- 
gram” 等 相关 短语 。 完 成 以 上 任务 不 需要 检查 文本 ， 而 仅仅 需要 查看 字典 就 够 了 OL 
第 5 章 中 的 查询 扩展 技术 ) 。 

最 后 ， 在 压缩 文本 中 搜索 单词 也 是 可 行 的 。 它 需要 做 的 只 是 找到 所 有 包含 这 个 单词 的 词 
典 短 语 ， 然 后 同时 搜索 所 有 这 些 短 语 (参见 第 9 章 )。 尽 管 搜索 短语 和 更 复杂 的 模式 有 些 复 
杂 ， 但 是 仍然 是 可 行 的 。 


6.8.6 压缩 预 处 理 


文本 压缩 的 最 新 趋势 是 压缩 的 预 处 理 过 程 。 其 思想 是 将 文本 转换 为 更 容易 压缩 的 形式 。 这 
个 方法 最 成 功 的 代表 可 能 是 Burrows-Wheeler 变换 (Burrows-Wheeler transform, BWT). 

BWTI 是 对 文本 位 置 的 重新 排列 ， 因 此 它 本 身 并 不 压缩 。 然 而 ， 在 转换 后 的 文本 上 用 简 
单 的 局 部 优化 就 可 以 获得 原始 文本 的 高 阶 压缩 。 

EXE T = tittet, 的 BWT 如 下 定义 。 假 设 i 二 $ 是 一 个 特殊 的 终结 符 ， 比 其 他 
的 都 小 。 构 造 一 个 概念 矩阵 ， 拖 阵 的 行 是 文本 工 所 有 的 循环 移 位 〈cyclic shift) ， 即 对 于 所 
有 的 ;有 ant…att…z 。 按 照 字典 序 排 列 M 的 全 部 行 。 令 下 为 M 的 第 一 列 , LER 
后 一 列 。 则 工 的 BWT 就 是 上。 在 图 6-9 HASH, T= “mississippi$ ” hy BWT & L= 
“ipssm $ pissii” 。 

很 惊奇 的 一 点 是 ， 可 以 从 工 中 将 工 恢 
复出 来 ， 达 到 这 个 目标 的 主要 任务 称 为 LF 
映射 《LF-mapping)。 给 定 在 工 中 的 一 个 
位 置 :，LF 映射 可 以 找到 在 下 中 的 L[i 的 
位 置 。 例 如 ， 如 果 L[5] 二“m”。 很 容易 看 
出 它 肯定 是 FL6] (因此 LF(5) 一 6)， 因 为 
下 以 字典 序 包 含 了 丁 中 所 有 的 字符 ， 并 且 
在 工 中 有 5 个 比 “m” 小 的 字符 。 这 就 能 
够 存储 数组 C， 在 C 中 存储 的 信息 是 ， 对 
每 个 字符 c， 在 工 中 小 于 ec 的 字符 的 个 数 。 | 
对 于 LFU 的 情况 更 复杂 一 些 ， 因 为 
LL4j] 二 “s”， 而 在 下 中 有 4 个 s。 到 底 是 
哪个 对 应 LL4] WE? BWT 的 一 个 很 好 的 
性 质 是 工 中 c 的 第 i 次 出 现 ， 对 应 c 在 下 
中 的 第 i 次 出 现 ， 因 为 在 两 种 情况 下 它们 
都 根据 在 本 中 处 于 c 后 面 的 文本 进行 排序 。 
于 是 ， 因 为 LL4j] 是 工 中 的 第 二 个 “s”， 
它 对 应 于 在 下 中 的 第 二 个 “s”， 也 就 是 说 
FF[10]==F[CL“s”] 十 2]， 因 此 LF(4) 二 10。 
为 了 能 够 高 效 地 计算 LF 映射 还 需要 一 个 
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Occli] 数组 ， 这 个 数组 告诉 我 们 LLi] Æ LCL, i] 出 现 的 次 数 。 更 准确 地 说 , LEG) = 
CLLLi] + æœe[i]]. 

知道 了 LF 映射 ， 我 们 现在 就 可 从 工 中 恢复 工 了 。 关 键 的 属性 是 Li 让 在 工 中 总 是 在 
FE] 的 前 面 。 因 为 我 们 知道 FL1] 必须 是 $ 〈 因 为 它 是 在 工 中 最 小 的 字符 )， 并 且 这 是 己 ， 
于 是 有 ta = LL1]」 。 之 后 我 们 必须 知道 工 LI 在 下 中 的 位 置 。 这 个 位 置 是 i = LFO). 因为 
Fi] = tmi o FRAG. = L[i] 。 现 在 我 们 移动 到 i = LF (i) 的 位 置 ， 然 后 找 出 t = 
L[i] ， 并 且 以 次 递 推 ， 直 到 以 逆序 恢复 整个 文本 工 。 

现在 我 们 给 出 一 些 为 什么 BWT 可 以 有 助 于 压缩 的 直观 感觉 。 例 如 某 些 常见 的 短语 ， 
“United States”。 所 有 的 在 工 中 出 现 的 “ed States” 会 在 M 中 连续 出 现 。 在 大 多 数 情 况 下 
“ed States” 在 “t 的 后 面 出 现 ， 因 此 工 将 在 连续 的 区 域 包含 大 多 数 “t”。 类 似 地 ，“ted 
States”, “ited States” 和 “nited Stages” 在 工 中 会 分 别 产 生长 程 的 字母 “i”、“n” 和 “U”。 
这 说 明 BWT 的 关键 点 是 : ET PHB 阶 的 元 余 转换 为 在 工 中 的 不 同 几 个 字符 的 持续 
出 现 。 

很 显然 ， 通 过 编码 这 些 持 续 出 现 的 相同 字母 并 且 对 于 工 使 用 一 些 简单 的 优化 ， 对 于 一 
个 适当 的 上 ， 压 缩 可 以 达到 工 的 一 个 上 Be. 

一 个 广泛 应 用 使 用 的 BWT 压缩 软件 是 bzip2， 目 前 在 大 多 数 UNIX/Linux 发 布 版 中 很 
常见 。 实 际 上 ，BWT 压缩 软件 并 不 显 式 地 创建 M 和 矩阵， 而 是 利用 后 缀 数组 直接 构造 L (2 
见 9,4 节 )。 工 中 的 字母 是 后 缀 之 前 以 词典 序 排列 的 那些 字母 。 


6.8.7 文本 压缩 技术 的 比较 


在 本 节 中 ， 我 们 从 概念 上 对 之 前 提 到 的 最 有 前 途 的 压缩 算法 进行 比较 ， 主 要 考虑 那些 与 
信息 检索 最 相关 的 方法 和 在 市 场 上 最 广泛 应 用 的 方法 。 在 统计 模型 中 ， 我 们 选择 了 两 个 半 静 
态 模型 和 一 个 自 适 应 模型 。 半 静态 模型 使 用 了 基于 词 的 0 阶 模型 和 两 个 不 同 的 编码 器 : E 
夫 曼 和 字 节 密集 算法 。 自 适应 模型 采用 算术 编码 的 PPM BR 我 们 使 用 ppmdi 程序 作为 比 
较 的 代表 ) 。 我 们 还 选择 了 字典 方法 中 的 两 个 代表 ， 半 静态 的 例子 是 Re-Pair， 而 Ziv-Lempel 
系列 中 的 LZ77 的 一 个 变种 作为 动态 的 代表 (例如 zip 或 者 gzip 程序 )。 最 后 我 们 选择 了 
BWT 变换 来 代表 基于 文本 预 处 理 的 方法 (更 准确 地 说 ,我们 使 用 了 bzip2 程序 ) 。 

表 6-2 从 多 个 因素 比较 了 之 前 考虑 的 几 种 方法 : 压缩 率 、 压 缩 速度 、 解 压缩 速度 、 内 存 
空间 开销 、( 人 单词) 直接 搜索 能 力 和 随机 访问 能 力 。 


表 6-2 主要 压缩 技术 的 比较 












测度 Huffman Re-Pair 








FESS (%) 25~30 30~35 20~25 20~30 30~40 25~30 
压缩 速度 快 ik 慢 非常 慢 快 慢 
解压 速度 快 非常 快 慢 快 非常 快 慢 
内 存 空间 高 高 高 高 低 高 
直接 搜索 快 非常 快 F th T 
随机 访问 是 T 是 F 





任何 压缩 方法 最 重要 的 目标 之 一 是 获得 更 好 的 压缩 率 。 表 6-2 展示 了 在 英文 文本 中 获得 
的 典型 压缩 。 压 缩 方法 的 另外 两 个 重要 特征 是 压缩 和 解压 缩 的 速度 。 然 而 衡量 各 种 压缩 方法 
的 速度 是 比较 困难 的 ， 因 为 它 依赖 于 算法 的 实现 和 用 来 运行 程序 的 机 器 的 体系 架构 等 。 我 们 
考虑 更 粗糙 的 类 别 ， 例 如 慢 、 快 等 。 类 似 地 ， 对 于 内 存 使 用 ， 我 们 也 只 是 考虑 高 和 低 两 个 类 
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别 OM 左右 就 认为 是 高 ) 。 直 接 搜索 也 分 为 粗糙 的 速度 类 别 ， 然 而 有 些 方法 根本 不 支持 直 
接 搜索 。 对 于 随机 访问 ， 我 们 仅仅 是 指 它 能 否 在 指定 位 置 开 始 解压 缩 ， 而 不 需要 解压 缩 文件 
中 的 许多 部 分 。 

统计 〈 基 于 词 ) 的 方法 ， 即 使 是 面向 字 节 的 ， 也 能 获得 比 Ziv-Lempel 方法 更 好 的 压缩 
比 。 特 别 是 基于 词 的 密集 编码 对 于 足够 大 的 文本 集 〈 大 于 数 M) 甚至 所 有 方面 都 比 Ziv- 
Lempel 表现 得 更 好 。PPM 和 BWT 获得 了 比 密集 编码 更 好 的 压缩 效果 。 原 因 是 这 两 种 方法 
利用 不 同 的 方式 获得 了 高 阶 模型 ， 并 把 它 和 算术 编码 结合 起 来 。 然 而 代价 是 ， 它 们 的 压缩 和 
解压 缩 速度 都 很 慢 。 基 于 词 的 位 置 夫 奋 编 码 用 更 好 的 时 间 表 现 获 得 了 相同 的 压缩 比 。 另 一 个 
比较 慢 的 压缩 方法 是 Re-Pair， 但 是 它 基 于 字符 〈character-based) 的 变种 获得 了 很 好 的 压缩 
比 。 基 于 字 的 变种 获得 了 接近 30% 的 压缩 比 ， 但 是 这 个 方法 可 以 允许 直接 搜索 单词 。 所 有 
其 他 方法 在 时 间 上 表现 很 好 ， 但 是 密集 编码 和 Ziv-Lempel 在 解压 缩 时 间 上 表现 更 加 突出 ， 
因为 它们 更 简单 。 除 了 Ziv-Lempel 方法 外 ， 其 他 所 有 方法 都 需要 相对 较 高 的 内 存 空 间 以 获 
得 可 接受 的 压缩 ，Ziv-Lempel 仅 利 用 64KB 内 存 就 可 以 很 好 地 运行 。 除 了 Re-Pair 和 一 些 
PPM 的 变种 外 ， 内 存 需 求 对 于 现代 计算 机 来 说 完全 不 是 问题 。 对 于 直接 搜索 ， 可 以 看 出 密 
集 编码 是 最 有 前 途 的 选择 。 最 后 ， 只 有 半 静 态 方法 实现 了 对 于 信息 检索 系统 非常 关键 的 对 压 
缩 文本 的 随机 访问 。 另 外 Re-Pair 是 唯一 一 个 允许 短语 浏览 的 方法 。 


6.8.8 结构 化 文本 压缩 


结构 化 文本 是 表示 信息 的 普遍 方式 。XML 作为 一 个 存储 、 交 换 和 操作 半 结 构 数 据 的 格 
式 被 广泛 使 用 ， 也 使 得 结构 化 文本 在 很 多 信息 检索 系统 中 成 为 表示 文档 的 常用 格式 。 这 个 结 
构 以 很 多 方式 使 用 ， 特 别 是 用 于 改进 检索 〈 见 第 13 章 )。 另 外 ， 它 也 可 以 利用 这 个 结构 获得 
更 好 的 压缩 效果 。 

经 典 的 文本 压缩 软件 并 没有 将 结构 信息 考虑 在 内 ， 这 样 会 失去 获得 更 好 压缩 效果 的 机 
会 。 直 到 最 近 ， 才 考虑 利用 结构 信息 改善 压缩 性 能 。 因 为 还 没有 为 结构 化 文本 压缩 建立 理 
论 ， 所 以 我 们 选择 性 地 提 及 最 突出 的 产品 和 原型 〈 关 注 与 信息 检索 领域 最 相关 的 那些 ) ， 及 
其 主要 思想 。 

1. XMLPPM 

从 压缩 率 的 角度 看 ， 这 可 能 是 最 好 的 结构 化 文本 压缩 方法 。 然 而 ，XMLPPM 是 自 适 应 
的 ， 因 此 不 能 支持 压缩 文件 的 直接 访问 。XMLPPM 依赖 于 类 似 PPM 建 模 和 算术 编码 。 同 
时 也 可 以 选用 其 他 几 个 模型 ， 在 压缩 的 进程 中 ，XMLPPM 可 以 在 它们 之 间 进 行 切 换 。 相 
反 ， 在 整个 过 程 中 只 能 使 用 一 种 算术 编码 。 使 用 的 4 个 模型 是 : 一 个 用 于 元 素 (element) 
和 属性 名 ， 一 个 用 于 元 素 结构 ， 一 个 用 于 属性 ， 还 有 一 个 用 于 字符 串 。 对 于 某 些 模型 ， 需 要 
给 定 PPM 模型 树 的 层次 结构 ， 当 一 个 新 的 结构 元 素 开 始 时 ， 将 到 达 结 点 的 树 路 径 的 标签 序 
列 用 做 上 下 文 ， 而 不 是 利用 之 前 的 字符 〈 来 自 另 外 一 个 树 结 点 )。 例 如 ， 如 果 信 源 文 本 是 
“<author><title> Prof. </title> Claude Shannon</author 盖 ”， 那 么 用 来 建 模 “prof. ” 
的 2 BY PPM EF RH “<author> <title>” (就 像 它 们 被 用 做 信 源 符号 ) ， 用 来 建 模 
“Claude” AYE FX “<Cauthor>”, I] Hse ER “Shannon” AY _E PF XH “<author> 
Claude”, 

2. SCM: 结构 化 上 下 文 建 模 

SCM 可 以 看 做 是 XMLPPM 的 一 个 简化 ， 它 支持 直接 访问 。SCM 仍然 基于 这 样 一 个 直 
觉 ， 即 在 一 个 给 定 标 签 下 的 文本 应 该 有 相似 的 统计 结构 ， 而 不 同 于 在 其 他 标签 下 的 文本 。 所 
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提出 的 方法 是 将 每 个 标签 下 文本 的 建 模 和 编码 与 其 他 标签 中 的 分 隔 开 来 。 例 如 ， 在 一 个 电子 
邮件 (E-mail) 集合 中 ， 人 们 可 以 认为 像 (from〉 和 to， 这样 的 字段 会 包含 电子 邮件 地 
址 ，《date〉 字 段 包含 日 期 ,并且 ‘subject〉 和 《body〉 包 括 自由 文本 。SCM 的 提出 者 对 每 
个 标签 使 用 基于 词 的 位 置 夫 曼 编码 器 来 说 明 这 个 想法 。 他 们 提出 了 一 个 方法 ， 当 分 布 被 证 明 
是 相似 的 ， 这 个 方法 会 合并 标签 ， 以 防止 重复 的 词汇 。 在 TREC-3 中 ，SCM 比 一 般 的 基于 
WN MER S BRET 2%% 一 4%% 的 压缩 改善 ， 并 且 保 持 了 直接 访问 和 搜索 的 能 力 。 

3.LZCS: 压缩 结构 的 Lempel-Ziv 方法 

LZCS 的 目标 是 那些 有 很 多 重复 的 结构 化 集合 ， 例 如 Web 表单 库 ， 如 订单 和 发 货 单 这 
样 的 电子 商务 文档 ，Web 服务 交换 文档 等 。 这 个 方法 将 结构 中 任意 子 树 用 一 个 指向 之 前 见 
过 的 相同 的 子 树 来 代替 。 除 了 限制 在 完整 的 子 树 上 外 ， 另 一 个 与 普通 的 L277 压缩 算法 的 主 
要 不 同 点 是 这 些 指针 是 指向 压缩 文件 的 位 置 ， 而 不 是 未 压缩 的 文件 。 因 此 ， 可 以 很 容易 地 在 
压缩 形式 中 浏览 文档 ， 而 完全 不 需要 将 它 解 压缩 。 此 外 ， 结 果 文 档 仍 然 是 一 个 可 用 的 XML 
文档 ， 仍 然 可 以 没有 任何 限制 地 传输 、 可 视 化 和 操作 。 利 用 经 典 的 压缩 算法 再 进行 一 遍 压 
缩 ， 往 往 可 以 比 直接 在 原始 文件 中 压缩 取得 更 好 的 压缩 效果 。 


6.9 趋势 和 研究 问题 


目前 ， 仍 出 现 很 多 改变 或 新 的 提议 ， 并 且 非 常 迅速 ， 特 别 是 因为 Web 的 出 现 。 在 这 点 
上 ， 读 者 一 定 被 一 堆 的 缩写 弄 糊 涂 了 我 们 也 是 这 样 ;， 尽 管事 实 上 ， 我 们 只 是 提 到 了 最 相 
关 的 语言 和 格式 。 它 们 当中 最 重要 的 包括 在 本 书 的 词汇 表 中 。 有 些 人 认为 像 CSS 或 XML 这 
样 的 新 的 格式 带 走 了 HTML 的 简洁 ， 而 这 正 是 HTML 成 功 的 基础 。 未 来 将 会 告诉 我 们 哪 
种 观点 会 取得 胜利 。 图 6-10 展示 了 涉及 的 主要 语言 的 分 类 体系 。 实 线 代 表 一 种 元 语言 的 实 
例 〈 例 如 HTML 是 SGML 的 实例 )， 而 虚线 表示 衍生 出 来 的 语言 。 不 同 成 果 的 收敛 复合 
是 主要 的 趋势 ， 而 Web 正在 成 为 主要 的 应 用 。 





TEI Lite 


XHTML RDF MathML SMIL | 样式 表 


图 6-10 文档 语言 的 分 类 体系 


在 欧洲 ， 替 代 SGML 的 是 开放 文档 体系 结构 (Open Document Architecture, ODA), 
这 也 是 一 个 标准 (ISO 8613)。ODA 用 于 共享 电子 文档 ， 而 且 不 失去 对 内 容 、 结 构 和 文档 布 
局 的 控制 。ODA 定义 了 一 个 逻辑 结构 〈 像 SGML 一 样 )， 一 个 布局 Cayout) 和 内 容 〈 包 括 
向 量 和 光栅 图 像 )。ODA 文件 可 以 是 格式 化 的 《Formatted) 、 可 处 理 的 〈Processable) 或 者 
格式 化 可 处 理 的 〈Formatted Processable) 。 格 式 化 文件 包括 关于 内 容 和 布局 的 信息 ， 不 能 
被 编辑 。 另 外 两 种 类 型 是 可 以 被 编辑 的 。 可 处 理 文 件 除了 内 容 也 包括 了 逻辑 信息 ， 而 格式 化 
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可 处 理 文件 包括 全 部 。ODA 现在 并 没有 被 广泛 使 用 〈 见 第 14 章 )。 

最 近 的 发 展 包括 : 

。 XForms 的 发 展 ， 这 是 一 个 用 来 表示 下 一 代 Web 表单 的 XML 应 用 。 其 主要 想法 是 
将 传统 的 XHML 表单 分 为 3 个 部 分 : XForms 模型 、 数 据 实例 和 用 户 接 口 。 这 个 方 
法 将 内 容 和 表示 区 分 开 来 ， 允 许 重 用 ， 提 供 了 强 类 型 ， 因 此 减少 了 服务 器 调用 的 次 
数 ， 同 时 提供 了 设备 独立 性 并 减少 了 对 脚本 的 要 求 。XForms 并 不 是 单独 使 用 ， 而 
是 整合 到 如 XHTML 或 者 SVG 等 其 他 标记 语言 

。 VRML 和 动态 HTML 的 整合 ， 为 HTML 和 Web 浏览 器 提供 了 一 系列 发 展 的 特征 
和 体系 扩展 ， 包 括 串 联 式 样式 表 和 文档 对 象 模 型 。 

。 产品 模型 数据 交换 标准 (Standard for the Exchange for Product model data, STEP, 
ISO 10303) 和 SGML 的 整合 。STEP 标准 涉及 来 自 各 个 行业 的 产品 数据 ， 并 且 为 
建 模 提 供 了 扩展 支持 、 自 动 存储 方案 生成 、 生 命 周 期 维护 和 其 他 管理 工具 。 

在 本 章 中 ， 我 们 也 涉及 多 种 文本 转换 技术 ， 我 们 称 之 为 简单 文本 操作 。 我 们 首先 讨论 了 
用 于 预 处 理 文档 文本 和 为 搜索 和 查询 目的 而 产生 一 系列 索引 项 的 5 种 不 同 的 文本 操作 。 这 5 
种 文本 操作 是 词汇 分 析 、 禁 用 词 去 除 、 词 干 提取 、 选 择 索引 词 和 同义词 典 。 前 4 个 是 与 生成 
一 个 好 的 索引 项 集合 直接 相关 的 。 第 5 个 ， 同 义 词典 的 创建 ， 与 索引 项 关系 分 类 层次 的 创建 
更 相关 。 然 后 这 些 关 系 可 以 通过 能 更 好 地 适应 用 户 需 求 的 描述 来 扩展 用 户 查询 〈 手 动 的 或 自 
动 的 ) 。 

最 近 ， 对 于 禁用 词 去 除 、 词 干 提取 和 索引 项 选择 给 检索 性 能 带 来 的 潜在 改进 存在 争论 。 
实际 上 ， 也 没有 确凿 的 证 据 证 明 这 些 文本 操作 可 以 在 检索 性 能 上 产生 持续 的 改进 。 因 此 ， 现 
代 检 索 系 统 可 能 不 再 使 用 这 些 文本 操作 。 这 个 趋势 的 一 个 很 好 的 例子 就 是 某 些 Web 搜索 引 
擎 对 所 有 的 词 建立 索引 ， 而 不 管 这 些 词 的 语法 特性 或 者 在 文本 中 的 角色 。 

而 且 ， 利 用 基于 同义词 典 技术 的 自动 查询 扩展 能 和 否 提高 检索 性 能 也 是 不 清楚 的 。 使 用 同 
义 词 典 直接 帮助 用 户 进行 查询 描述 同样 也 说 不 清楚 。 实 际 上 ， 过 去 Yahoo! 使 用 了 一 个 索引 
项 的 分 类 层次 结构 向 用 户 展示 了 项 间 的 关系 ， 这 个 现象 也 预示 着 基于 同义词 典 的 技术 可 能 对 
于 为 现代 数字 图 书馆 系统 开发 的 高 度 交互 界面 相当 有 用 。 

与 之 前 不 同 的 一 个 文本 操作 是 压缩 。 之 前 的 多 种 文本 操作 旨 在 以 某 种 方式 提高 答案 集 的 
质量 ， 而 压缩 文本 的 操作 是 为 了 减少 空间 、L/O 、 传 输 开 销 以 及 搜索 时 间 。 

为 了 能 在 信息 检索 环境 中 高 效 处理 ， 压 缩 方法 应 该 满足 下 面 的 要 求 : 更 好 的 压缩 率 、 快 
速 编 码 、 快 速 解码 、 不 用 从 头 解 码 的 快速 随机 访问 ， 以 及 (更 好 地 是 ) 不 需要 解压 缩 文本 而 
直接 搜索 。 好 的 压缩 率 节约 了 辅助 存储 空间 并 减少 了 传输 的 开销 。 快 速 编码 减少 了 由 于 将 压 
缩 引 入 系统 所 带 来 的 处 理 开销 。 通 常 快速 解压 缩 比 快速 编码 更 重要 ， 因 为 在 文档 系统 中 文档 
只 需要 被 压缩 一 次 ， 而 需要 从 磁盘 上 解压 缩 很 多 次 。 快 速 随机 访问 和 直接 搜索 可 以 更 高 效 地 
处 理 信息 系统 用 户 提 交 的 多 个 查询 。 我 们 利用 这 些 需 求 作为 参数 比较 了 多 种 压缩 方案 。 

我 们 的 讨论 说 明 ， 基 于 词 的 半 静 态 方 法 是 将 压缩 引 和 人 现代 信息 检索 系统 的 最 佳 选 择 。 特 
别 是 ,位置 夫 曼 、 密 集 编码 和 Re-Pair 是 最 有 前 途 的 变种 。 这 些 方 法 允许 文本 的 随机 访问 、 
不 用 解压 缩 的 高 效 直接 搜索 以 及 在 Re-Pair 情况 下 非常 有 价值 的 浏览 文档 集 的 方法 。 这 些 方 
法 都 获得 了 有 吸引 力 的 压缩 比 和 解压 缩 时 间 。 除 了 Re-Pair 外 ， 它 们 也 提供 了 很 好 的 压缩 时 
间 。 另 外 ， 它 们 是 基于 词 的 ， 从 而 简化 了 把 它们 整合 到 IR 系统 的 过 程 。 

我 们 也 讨论 了 最 近 一 些 利 用 文本 结构 优点 的 方法 ， 因 为 这 正在 成 为 处 理 信息 检索 系统 中 
文本 的 标准 操作 。 
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当前 文本 压缩 的 一 个 挑战 是 将 索引 压缩 整合 到 IR 系统 中 〈 参 见 第 9 章 )， 因 此 ， 不 只 是 
文本 而 且 索 引 也 可 以 被 压缩 。 这 也 引起 了 我 们 对 同时 实现 旨 在 归纳 文本 集 信 息 内 容 的 压缩 和 
索引 的 兴趣 。 在 本 章 中 ， 我 们 已 经 看 到 像 Re-Pair 的 方法 如 何 使 用 在 文本 集 上 构建 的 字典 作 
为 浏览 重要 短语 的 工具 。 我 们 也 看 到 了 文本 集 的 词汇 表 如 何 被 用 做 索引 也 被 用 做 基于 词 的 压 
缩 。 我 们 也 看 到 了 ， 作 为 文本 0 阶 模型 一 部 分 的 词汇 表 ， 如 何 用 来 将 复杂 搜索 分 解 为 不 同 的 
文本 单词 ， 从 而 使 得 压缩 文本 可 以 比 原始 文本 查找 加 快 很 多 倍 。 其 他 一 些 压缩 和 检索 的 关 
系 ， 特 别 是 关于 BWT 的 内 容 ， 会 在 第 9 章 中 讨论 。 

将 压缩 包括 到 信息 检索 系统 中 的 一 个 难题 是 ， 随 着 文本 集 的 演变 如 何 维护 压缩 。 用 于 创 
建 半 静 态 模型 的 原始 统计 ， 在 文本 集 进 行 了 比较 大 的 改变 后 〈 例 如 ， 考 虑 新 闻 文 档 集 ) 可 能 
就 不 再 适用 了 。 定 期 重新 压缩 当然 是 一 个 选择 ， 但 是 如 何 避 免 信 息 检 索 系 统 复杂 的 定期 重新 
处 理 非常 引 人 关 注 。 另 一 方面 需要 注意 的 是 ， 有 些 文档 集 随时 间 相 对 比较 均匀 ， 并 且 对 文档 
集 的 第 一 个 采样 (例如 10M) 计算 的 统计 信息 也 能 很 好 地 压缩 它 之 后 的 部 分 。 


6. 10 文献 讨论 


在 6. 1 节 中 用 到 的 文档 模型 基于 [905]. Web 元 数据 的 详细 介绍 在 [982，983] 中 给 
出 。 关 于 标记 语言 的 大 部 分 信息 和 相关 问题 来 自 于 万 维 网 联盟 (World Wide Web Consorti- 
um) 《查看 www. w3. org), XF SGML 和 XML 更 多 的 信息 由 GoldfarbL633，634] AM. 
SGML 的 其 他 引用 是 [757，1572] (特别 是 SGML 的 例子 是 从 L474] 中 获得 的 ) 。 有 关于 
HTML 的 书 有 数 百 本 。 关 于 HTML 4.0 的 两 个 资源 是 L474, 1656]. KF CSS 的 书 是 
[1027]。 关 于 XML, XSL # XLink 的 信息 查看 [1655，1657，1658]。 关 于 XML 及 其 相关 
语言 的 缺点 和 优点 的 讨论 查看 [241，413，904，930」]。 更 多 关于 多 媒体 格式 的 信息 可 以 在 
[C1005] 中 找到 。 对 于 图 像 的 情况 参见 [1703]. 

我 们 对 词汇 分 析 和 禁用 词 去 除 的 讨论 基于 Fox[577] 的 工作 。 对 于 词 干 提取 的 讨论 基于 
Frakes[581] M/E. Porter 的 词 干 提取 算法 在 [1292] 中 提出 。 同 义 词典 的 讨论 基于 Fos- 
kett[574] 的 工作 。 然 而 这 里 我 们 并 没有 涉及 同义词 典 的 自动 生成 。 这 些 讨 论 可 以 在 第 5 章 
和 [1501, 1526] 中 找到 。 另 外 一 些 在 同义词 典 用 途上 的 讨论 在 [856，1501] 中 呈现 。 

关于 文本 压缩 ， 有 几 本 书 可 以 参考 。 对 于 压缩 在 信息 检索 系统 中 最 出 色 的 引用 是 由 Wit- 
ten, Moffat 和 Bell [1709] 写 的 。 他 们 涉及 了 很 多 我 们 在 这 里 提 到 的 文本 压缩 技术 ， 同 时 也 介 
绍 了 图 像 和 文本 集 索 引 的 压缩 。 他 们 也 给 出 了 一 些 文本 压缩 方法 的 实现 ， 例 如 霍 夫 曼 和 算术 编 
码 ， 这 是 称 为 MG 的 、 用 ANSI C 编写 的 完整 的 压缩 检索 系统 Chttp: // www. cs. mu. oz au/ 
mg). Bell, Cleary 和 Witten[174] 主要 涉及 统计 方法 ， 将 重点 放 在 了 建 模 和 编码 任务 上 ， 包 括 
半 静 态 和 自 适应 模型 ， 以 及 自然 语言 建 模 。 他 们 也 关注 字典 方法 。MofttatL1148] 最 关注 各 种 
编码 技术 和 它们 的 有 效 实现 。 

Shannon[1452] 的 基础 论文 被 看 做 是 信息 论 的 诞生 。 霍 夫 曼 编码 最 初 由 [795」 提 出 。 
基于 词 的 压缩 在 [175，184，775，1147]」 中 讨论 。 基 于 词 的 霍 夫 曼 编码 器 可 以 在 更 庞大 的 
MG 系统 找到 。[769，1445」 讨论 了 规范 码 。 字 节 霍 夫 曼 编码 及 其 直接 搜索 能 力 ， 包 括 无 空 
格 单词 模型 ， 都 在 [1158] 中 讨论 。 换 行 PPM 建 模 由 [173] 提出 。 还 有 多 个 压缩 软件 基 
于 将 算术 编码 附加 到 PPM 模型 上 。 相 当 高 效 的 一 个 是 Shkarin 的 ppmdi[1469]， 这 个 软件 
可 以 在 XMLPPM 的 实现 中 下 载 ， 也 可 以 在 PizzaChili 的 网 站 上 下 载 到 (参考 后 面 内 容 )。 

第 一 篇 关于 算术 编码 的 文章 是 [1357j。 其 他 参考 文献 是 [174，1710]。 一 个 开源 的 算 
术 编 码 器 可 以 在 http://www. cs. mu. oz. au/~alistair/arith coder 上 下 载 。 
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密集 编码 和 它们 的 快速 搜索 能 力 在 [265，550] 中 详细 地 进行 了 研究 。 它 们 的 名 字 来 源 
于 它们 与 标签 霍 夫 曼 编码 (tagged Huffman codes) 的 关系 ， 而 后 者 现在 已 经 很 少 使 用 了 。 
[266] 描述 了 密集 编码 的 一 个 自 适应 版 本 ， 这 个 版 本 可 以 支持 搜索 。 

Ziv-Lempel 压缩 算法 在 [1795, 1796] 中 提 到 。 很 多 压缩 软件 都 基于 此 ， 例 如 免费 的 
gzip (http://www. gzip. org) 和 Zip(http:Wwww. info-zip. org) 软件 。 直 接 搜索 Ziv-Lem- 
pel 文本 的 实践 工作 以 及 相关 软件 LZgrep 可 以 在 http://www. dec. uchile. cl/~ gnavarro/ 
software 上 找到 。Re-Pair 由 [981] 首次 提出 。 它 的 基于 词 的 版 本 和 短语 浏览 的 用 法 在 
[1150, 1663] 中 提 到 。 

Burrows-Wheeler 变换 在 [302] 中 提 到 。 之 后 它 获得 了 大 量 的 关注 ， 例 如 [1192] 和 
第 9 章 中 提 到 的 压缩 索引 的 作用 。 压 缩 软件 bzip2 Chttp: //www. bzip. org) 是 基于 这 个 变 
换 的 。 

存在 多 种 结构 化 文本 压缩 方法 。 我 们 已 经 介绍 了 XMLPPM[367] (免费 软件 在 http: // 
xmlppm. sourceforge. net 中 获得 )、SCM[12] 和 LZCS[13] (这 两 个 软件 可 以 在 http:// 
www. infor. uva. es/~jadiego/download 上 下 载 )。 更 多 的 参考 资料 可 以 在 这 些 论文 中 找到 。 

最 后 ，http;/www. data-compression. com, http://www. data-compression. info 和 bhttp:// 
datacompression. info 提供 了 一 些 与 压缩 相关 的 在 线 资源 。 用 于 压缩 算法 的 标准 文本 语 料 是 
Canterbury 语料库 (http;//corpus. canterbury. ac. nz) 和 PizzaChili 网 站 (网 站 镜像 包括 
http://pizzachili, dcc. uchile. cl 和 http://pizzachili, di. unipi. it), TREC 文档 集 也 经 常用 于 

作为 压缩 的 评测 文本 (http://trec. nist. gov). 
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一 一 与 Gonzab Navarro 合 著 
这 一 章 涵盖 了 查询 的 主要 方面 ， 包 括 表 达 查 询 的 不 同 语言 、 查 询 分 布 ， 以 及 Web 的 查 
询 分 析 方 法 。 


7.1 查询 语言 

提交 给 文本 检索 系统 的 查询 通常 有 着 不 同 的 类 型 。 用 户 可 能 生成 的 查询 类 型 在 很 大 程度 
上 依赖 于 第 3 章 所 讨论 的 底层 检索 模型 。 所 以 ， 对 于 相同 类 型 的 查询 ， 全 文 检索 系统 的 回答 
可 能 与 其 他 检索 系统 不 同 ， 包 括 基 于 关键 词 排序 的 检索 系统 〈 如 Web 搜索 引擎 ) ， 或 者 基于 
超 文本 模型 的 检索 系统 。 第 9 章 将 解释 系统 是 怎么 处 理 用 户 查 询 的 ， 本 章 将 解释 用 户 是 怎么 
生成 查询 的 。 

正如 之 前 章节 所 介绍 的 ， 我 们 需要 区 分 信息 检索 和 数据 检索 这 两 个 概念 ， 因 为 我 们 需要 
使 用 这 两 个 概念 区 分 不 同类 型 的 查询 语言 。 如 果 是 允许 答案 排序 的 查询 语言 ， 我 们 称 之 为 信 
息 检 索 语 言 ， 如 果 是 不 考虑 答案 排序 的 语言 ， 我 们 称 之 为 数据 检索 语言 。 正 如 第 3 章 所 讨论 
的 那样 ， 对 于 基本 的 信息 检索 模型 ， 基 于 关键 词 的 检索 是 主要 的 查询 任务 。 而 对 定位 于 非 信 
息 检索 的 查询 语言 ， 排 序 的 概念 并 不 容易 定义 ， 因 此 我 们 将 这 类 查询 看 做 数据 检索 语言 。 而 
且 ， 有 些 查询 语言 并 不 是 给 最 终 用 户 使 用 的 ， 而 是 给 更 高 层次 的 软件 包 用 来 查询 在 线 数 据 库 
或 者 光盘 文档 的 语言 。 在 这 种 情况 下 ， 我 们 称 之 为 协议 ， 而 不 是 查询 语言 。 根 据 用 户 体验 ， 
通常 可 以 使 用 不 同 的 查询 语言 。 比 如 ， 如 果 用 户 明 确 地 知道 感 兴趣 的 信息 是 什么 样 的 ， 那 么 
检索 任务 将 变 得 更 加 简单 ， 甚 至 不 需要 答案 排序 。 

一 个 重要 的 问题 是 ， 大 部 分 的 系统 都 试图 通过 内 容 (如 语义 ) 和 文本 的 结构 (如 文本 的 
语法 结构 ) 来 找到 相关 文档 。 但 是 ， 由 于 任务 本 身 比较 困难 ， 因 此 系统 可 能 会 找 不 到 相关 文 
档 (参见 第 4 章 ) 。 由 于 这 个 原因 ， 出 现 了 一 些 旨 在 提高 查询 实用 性 的 技术 。 比 如 将 查询 用 
它 的 同义词 集 扩展 ， 或 者 使 用 词典 扩展 ， 又 或 者 采用 词 干 提取 的 技术 将 同一 个 词 的 所 有 变化 
形式 放 在 一 起 扩展 ， 还 有 一 些 其 他 的 技术 。 此 外 ， 那 些 频 率 很 高 且 无 意义 的 词 (如 英语 里 的 
“the”) ， 即 禁用 词 ， 可 以 删除 。 这 个 主题 在 第 6 章 中 涉及 。 在 这 里 ， 我 们 假设 对 所 有 查询 已 
经 完成 了 预 处 理 。 尽 管 这 些 操作 在 信息 检索 里 是 常见 的 ， 但 许多 操作 对 数据 检索 同样 很 有 帮 
助 。 在 需要 的 时 候 ， 我 们 将 能 够 匹配 查询 项 的 词 称 为 “关键 词 "， 以 区 分 那些 不 能 与 查询 项 
匹配 的 词 〈 因 为 这 些 词 没有 包含 在 索引 里 面 ) 。 

与 查询 类 型 相关 的 一 个 问题 是 ， 在 信息 系统 中 采用 的 检索 单元 的 主体 是 什么 。 检 索 单元 
是 指 那些 能 够 被 检索 到 并 作为 查询 答案 的 基本 元 素 (通常 是 被 检索 到 的 一 个 基本 元 素 集 ， 有 
的 时 候 也 需要 以 相关 性 或 者 其 他 标准 排序 ) 。 检 索 单元 可 以 是 文件 、 文 档 、 网 页 、 段 落 ， 或 
者 包含 查询 答案 的 其 他 结构 性 单元 。 从 这 一 点 看 ， 我 们 把 检索 单元 简称 为 “文档 ”， 这 个 简 
称 也 可 以 用 做 其 他 的 含义 〈 参 见 第 3 章 ) 。 

本 章 的 组 织 方式 如 下 。 我 们 首先 介绍 使 用 基于 关键 词 的 查询 语言 表示 的 查询 。 这 类 查 
询 是 针对 信息 检索 任务 的 ， 除 了 包括 某 些 简单 的 单词 和 短语 外 ， 还 包括 可 以 操作 文档 集 
的 布尔 操作 符 。 其 次 ， 我 们 将 涉及 包括 更 加 复杂 的 查询 的 模式 匹配 。 模 式 匹配 的 目的 通 
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常 是 用 更 强 的 数据 检索 能 力 来 补充 关键 词 搜索 。 再 次 ， 我 们 将 涉及 针对 文本 结构 的 查询 ， 
它 更 加 依赖 于 特定 的 文本 模型 。 最 后 ， 我 们 将 介绍 用 于 互联 网 和 光盘 出 版 物 的 一 些 标准 
协议 。 


7.1.1 基于 关键 词 的 查询 


查询 是 用 户 信息 需求 的 形式 化 表示 。 最 简单 的 查询 是 由 关键 词 构成 的 ， 要 搜索 的 是 包含 
查询 中 关键 词 的 文档 。 基 于 关键 词 的 查询 很 受 欢 迎 ， 因 为 这 样 的 查询 很 直观 、 易 于 表达 ， 同 
时 也 支持 快速 排序 。 因 此 ， 查 询 〈 在 许多 情况 下 〉 可 以 简单 到 只 有 一 个 词 ， 虽然 也 可 以 包括 
由 复杂 操作 组 合成 的 多 个 词 。 在 本 章 中 ,我们 将 单词 查询 (单个 词 或 者 多 个 词 ) 称 为 基本 查 
询 。 在 7.1.2 节 所 讨论 的 模式 也 视 做 基本 查询 。 

1. 单词 查询 

在 文本 检索 系统 中 ， 最 基本 的 查询 只 有 一 个 单词 。 假 设 文本 文档 本 质 上 是 由 单词 组 成 的 
长 序列 。 尽 管 有 些 模型 提出 了 更 加 一 般 的 假设 ， 但 几乎 所 有 的 模型 都 允许 以 这 种 观点 看 待 文 
本 。 有 些 模型 也 将 单词 分 解 成 字母 ， 这 样 就 多 许 模式 搜索 ， 而 非 单 词 查询 ， 这 部 分 我 们 将 在 
7. 1.2 节 中 讨论 。 然 后 ， 这 些 经 过 扩展 的 查询 将 检索 到 的 单词 集 交 给 单词 处 理 模块 处 理 ， 完 
成 同义词 典 扩展 或 者 排序 。 

通常 用 一 种 十 分 简单 的 方式 定义 单词 。 假 如 字母 表 中 包含 的 是 字母 和 间隔 符 两 类 符号 ， 
那么 单词 就 是 一 个 被 间隔 符 围绕 的 字母 序列 。 更 复杂 的 模型 允许 一 些 特定 的 字符 ， 它 们 不 是 
字母 ， 也 不 能 用 作 分 隔 符 ， 比 如 单词 “onrline” 中 的 连 字符 。 让 文本 数据 库 的 管理 员 选 择 哪 
些 字符 是 字母 ， 哪 些 是 分 隔 符 ， 是 一 个 很 好 的 做 法 。 

并 不 是 漫 无 目的 地 将 文本 分 解 为 单词 ， 因 为 在 自然 语言 里 ， 单 词 包含 了 很 多 的 语义 。 因 
此 ， 许 多 模型 〈 如 向 量 模型 ) 在 单词 概念 上 建立 复杂 的 结构 ， 并 且 单词 查询 是 允许 的 唯一 一 
种 查询 〈 而 且 ， 有 些 系 统 只 允许 从 文档 中 抽取 出 一 小 部 分 单词 )。 

如 果 单 词 查询 是 析 取 形式 的 ， 那 么 查询 产生 的 结果 就 是 至 少 包 含 查询 中 一 个 单词 的 文档 
集 。 例如， 在 向 量 空间 模型 中 (参见 3. 2. 6 节 )， 结 果 集 中 的 文档 根据 它们 与 查询 的 相似 程 
度 排 序 。 为 了 支持 排序 功能 ， 经 常 使 用 两 种 基于 文档 内 单词 出 现 频率 的 统计 量 。 第 一 种 称 为 
“项 频 ”， 它 统计 单词 在 一 篇 文档 内 出 现 的 次 数 。 第 二 种 称 为 “反比 文档 频率 ”， 它 统计 出 现 
某 个 单词 的 文档 数量 。 第 3 章 中 详细 讨论 了 单词 的 权重 赋值 策略 。 

另外 一 种 查询 的 表达 方式 是 合 取 形式 ， 这 种 方式 在 Web 搜索 引擎 中 很 流行 。 在 这 种 情 
况 下 ， 只 有 当 文档 中 包含 了 查询 中 的 所 有 单词 ， 这 个 文档 才能 匹配 查询 。 当 查询 中 的 单个 词 
能 匹配 的 文档 数量 非常 大 时 ， 这 种 形式 就 很 有 用 。 但 有 时 ， 合 取 形 式 可 能 要 求 过 于 严格 ， 可 
能 导致 很 少 甚至 没有 答案 文档 。 在 这 种 情况 下 ， 可 以 通过 丢掉 某 些 词 来 放宽 限制 要 求 。 这 样 
我 们 可 能 感 兴趣 的 是 保留 能 够 一 起 出 现 的 单词 的 子 集 (参见 下 面 的 邻近 性 ) 或 者 可 能 检 出 大 
量 答案 文档 的 单词 子 集 。 

另外 ， 也 可 能 要 求 系统 提供 某 个 单词 在 文本 中 出 现 的 准确 位 置 。 在 显示 结果 时 ， 这 些 信 
息 有 助 于 在 返回 的 文档 片段 中 加 亮 显 示 单词 的 出 现 位 置 。 

2, 上下文 查询 

除了 单词 查询 能 力 外 ， 许 多 系统 也 有 能 力 在 一 个 特定 的 上 下 文 片 段 中 搜索 单词 ， 即 在 其 
他 单词 附近 搜索 单词 。 也 就 是 说 ， 我 们 把 文本 中 接近 的 物理 位 置 作为 上 下 文 使 用 。 查 询 中 的 
单词 彼此 接近 ， 可 能 意味 着 比 那些 彼此 远离 的 单词 有 着 更 高 的 相似 性 。 举 例 来 说 ， 我 们 可 能 
想 要 构成 短语 ， 或 者 发 现在 文本 中 最 接近 的 单词 。 
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。 短语 : 单个 词 查询 的 序列 。 一 个 短语 等 同 于 多 个 单词 的 序列 。 例 如 ， 假 定 查 询 
“enhance retrievali”， 我 们 可 以 先 搜索 单词 “enhance”， 然 后 搜索 单词 “retrieval”, 
处 理 短语 查询 时 ， 一 般 认为 文本 中 出 现 的 间隔 符 不 需要 与 查询 中 出 现 的 间隔 符 相 同 
〈 例 如， 连续 两 个 单词 之 间 可 以 有 两 个 空格 或 者 只 有 一 个 空格 ) ， 甚 至 可 以 完全 不 考 
虑 不 感 兴趣 的 词 。 例 如 ， 在 之 前 的 查询 例子 中 ， 可 以 匹配 到 这 样 一 个 文本 “... en- 
hance the retrieval ...”。 尽 管 在 大 多 数 的 情况 下 ， 这 个 特性 是 很 有 帮助 的 ， 但 并 不 
是 所 有 的 检索 系统 都 实现 了 这 个 特性 。 
。 邻近 性 : 短 庄 查询 的 一 个 更 加 宽泛 的 形式 是 邻近 查询 。 在 这 种 情况 下 ， 给 定 一 个 单词 
或 者 短语 形成 的 序列 ， 同 时 给 定 它们 之 间 允 许 的 最 大 距离 。 例 如 ， 上 面 的 例子 可 以 表 
述 成 这 样 ， 两 个 查询 单词 应 该 在 间隔 四 个 词 的 范围 内 出 现 ， 因 此 下 面 这 样 的 文本 被 匹 
Ac, “... enhance the power of retrieval . ..”。 这 里 的 距离 可 以 用 字符 或 者 单词 来 衡量 ， 
主要 取决 于 系统 。 可 以 要 求 或 不 要 求 单 词 和 短语 以 查询 中 出 现 的 次 序 出 现 。 
短语 可 以 在 一 定 程度 上 类 似 于 以 单个 词 的 方式 排序 〈 详 见 第 3 章 )。 如 果 排 序 函 数 使 用 
的 参数 不 依赖 于 物理 上 的 邻近 位 置 ， 那 么 邻近 查询 也 能 以 相同 的 方式 排序 。 尽 管 并 不 知道 怎 
样 做 才能 更 好 地 排序 ， 但 是 物理 位 置 的 邻近 性 还 是 有 语义 上 的 价值 。 这 是 因为 ， 在 大 部 分 的 
情况 下 ， 邻 近 性 就 意味 着 查询 单词 出 现在 相同 的 段落 中 ， 因 此 在 某 些 方面 是 相关 的 。 
3. 布尔 查询 
将 关键 词 查询 组 合 起 来 最 古老 的 《至 今 仍 然 大 量 使 用 的 ) 方法 是 使 用 布尔 操作 符 。 布 尔 
查询 是 一 种 由 原子 〈 即 基本 查询 ) 和 布尔 运算 符 AND 
组 成 的 语法 。 原 子 用 来 检索 文档 ， 布 尔 运算 符 作 
用 于 操作 对 象 〈 检 出 的 文档 集 》 并 指明 合适 的 结 So N 


果 文 档 集 。 因 为 这 种 查询 策略 一 般 是 可 以 组 合 的 


(如 运算 符 可 以 与 其 他 运算 符 的 结果 组 合 ) ， 可 以 sation OR 

很 自然 地 定义 一 棵 查询 语法 树 ， 语 法 树 上 的 叶子 S N 

结 点 对 应 于 基本 查询 ， 而 内 部 结 点 对 应 于 布尔 运 

算 符 。 查 询 语法 树 在 各 个 文档 集 上 进行 代数 运算 syntax syntactic 
(查询 的 最 终 答案 也 是 一 个 文档 集 )。 这 很 像 算术 图 7-1 查询 语法 树 的 一 个 例子 。 这 个 查询 
表达 式 的 语法 树 ， 在 算术 表达 式 的 语法 树 中 ， 数 检索 所 有 包含 单词 “translationy， 
字 和 变量 是 叶子 结 点 ， 而 算术 操作 是 内 部 结 点 。 cate eee RAKA 


7-1 展示 了 一 个 例子 。 

给 定 两 个 基本 查询 或 者 布尔 子 表达 式 e 和 ee ， 通 常 使 用 的 运算 符 有 : 

。 OR: 查询 (el ORe) 选择 所 有 满足 ei Re 的 文档 。 重 复 的 文档 会 被 删除 。 

。 AND: 查询 (e AND e) 选择 所 有 同时 满足 e 和 es 的 文档 。 

。 BUT: 查询 (e BUT e) 选择 所 有 满足 a 但 不 满足 e 的 文档 。 需 要 注意 的 是 ， 经 典 的 
布尔 逻辑 使 用 的 “NOT” 运 算 符 。 当 文档 不 满足 e 时 ，(NOT e) 是 合法 的 。 在 这 种 
情况 下 ， 所 有 不 满足 e 的 文档 都 应 该 被 检 出 ， 这 可 能 检 出 大 量 的 文本 ， 并 且 很 可 能 不 
是 用 户 想 要 的 结果 。 相 反 ，BUT 运算 符 将 可 检 出 的 文档 全 集 限制 为 满足 ea 的 文档 。 

除了 选取 适当 的 文档 外 ， 系 统 也 可 以 完成 : 1) 将 文档 以 某 一 标准 排序 ; 2) 加 亮 显 示 文 


加 ”注意 到 关系 运算 符 也 有 同样 的 问题 ， 和 关系 代数 一 样 需要 避免 “不 安全 的 ”表达 式 。 不 安全 的 表达 式 直接 或 者 
间接 引用 元 素 的 全 集 ， 例 如 NOT 算 子 所 做 的 。 
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档 中 出 现 的 查询 词 ; D 将 答案 集 作 为 基础 重 构 查 询 ， 并 且 进 行 反馈 。 这 些 信息 也 将 作为 结 
果 集 的 一 部 分 提供 给 用 户 。 

典型 的 布尔 系统 不 对 检 出 的 文档 进行 排序 。 一 个 文档 要 么 满足 布尔 查询 〈 被 检 出 )， 要 
么 不 满足 布尔 查询 (不 会 被 检 出 )。 这 是 很 大 的 限制 ， 因 为 这 种 系统 不 允许 用 户 查 询 和 文档 
之 间 存 在 部 分 匹配 。 为 了 解除 这 种 限制 ， 检 索 条 件 必须 放宽 。 例如， 部 分 满足 AND 条 件 的 
文档 也 可 以 被 检 出 。 

众所周知 ， 没 有 接受 过 数学 训练 的 用 户 发 现 布 尔 运算 符 的 意义 很 难 掌 握 。 考 虑 到 这 个 问 
题 ， 研 究 人 员 提 出 了 一 种 “模糊 布尔 ”运算 符 集 。 想 法 是 可 以 放宽 AND 和 OR 运算 符 的 意 
义 。 模 糊 运算 符 不 要 求 满足 所 有 条 件 CAND) 或 者 满足 至 少 其 中 一 个 条 件 (OR), WEE 
回 满足 部 分 条 件 的 结果 。 模 糊 运 算 符 检 出 满足 茶 些 条 件 的 文档 。 在 这 种 情况 下 ，AND 运算 
符 要 求 满足 比 OR 运算 符 更 多 的 条 件 。 而 且 ， 如 果 满 足 较 多 的 查询 条 件 ， 文档 将 被 排 在 更 前 
的 位 置 (参见 第 3 章 )。 


7.1.2 非 关 键 词 查询 


本 节 将 讨论 表示 能 力 更 强 的 查询 语言 ， 即 模式 匹配 和 自然 语言 。 
1. 模式 匹配 
在 这 一 部 分 中 ， 我 们 讨论 更 强大 的 查询 描述 〈 基 于 模式 的 概念 )， 这 种 查询 描述 允许 检 
索 满 足 某 些 属性 的 文本 片段 。 这 些 数据 检索 查询 对 语言 学 、 文 本 统计 和 数据 抽取 是 很 有 用 
的 。 这 种 查询 返回 的 结果 可 以 用 之 前 讨论 过 的 组 合 机 制 生成 短语 和 邻近 查询 ， 构 成 所 谓 的 基 
本 查询 。 基 本 查询 可 以 用 布尔 表达 式 组 合 起 来 。 在 这 种 意义 下 ， 可 以 将 这 种 数据 检索 能 力 看 
做 是 信息 检索 的 增强 工具 。 然 而 ， 将 更 难 对 模式 匹配 表 式 的 结果 文档 进行 排序 。 
模式 是 一 组 在 文本 段 中 发 现 的 语法 特征 。 那 些 满足 某 个 特定 模式 的 文本 段 称 为 “匹配 ” 
这 个 模式 。 我 们 对 那些 包含 能 够 匹配 给 定 搜索 模式 的 文本 段 的 文档 感 兴趣 。 每 个 系统 都 允许 
指定 一 些 模式 类 型 ， 可 以 是 非常 简单 的 类 型 〈 如 一 些 词 )， 也 可 以 是 相当 复杂 的 类 型 (如 正 
则 表达 式 )。 模 式 集 允 许 使 用 的 类 型 越 强大 ， 用 户 可 以 描述 的 查询 越 多 ， 而 搜索 函数 的 实现 
也 越 复杂 。 最 常用 的 模式 类 型 有 以 下 几 种 。 
。 词 (words): 必须 是 文本 中 单词 的 字符 串 (字符 序列 ) (参见 7. 1.1 节 )。 这 是 最 基 
本 的 模式 。 
。 BIZ (prefixes): 必须 是 文本 中 (一 个 或 多 个 ) 单词 开始 部 分 的 字符 串 。 例 如 ， 给 
定 前 级“comput”， 所 有 包含 有 如 “computer”、“computation” 等 单词 的 文档 都 会 被 
检 出 。 
。 后 (suffixes): 必须 是 文本 中 〔〈 一 个 或 多 个 ) 单词 结尾 部 分 的 字符 串 。 例 如 ， 给 
定 后 缀 “ters”， 所 有 包含 “computers”、“testers”、“painters” 等 单词 的 文档 将 被 
RH. 
。 FH (substrings); 出 现在 文本 中 的 单词 的 子 串 。 例 如 ， 给 定 的 子 串 是 “tal”， 所 有 
44 “coastal”, “talk”, “metallic” 等 单词 的 文档 将 被 检索 到 。 这 种 查询 可 以 限制 
在 单词 内 部 查找 子 串 ， 或 者 更 进一步 地 在 文本 的 任何 地 方 查找 子 串 〈 在 这 种 情况 下 ， 
查询 不 局 限于 查找 字母 序列 ， 而 可 以 包含 单词 分 隔 符 ) 。 例 如 ,“any flow” 将 匹配 短 
语 “.. many flowers...”。 
。 范围 (ranges) :能够 匹配 以 词典 序 位 于 一 对 字符 串 之 间 的 字符 串 。 词 典 通常 是 有 序 
的 ， 这 就 引出 了 称 为 词典 顺序 的 字符 串 顺 序 (事实 上 是 单词 在 词典 中 排列 的 顺序 )。 
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例如 ， 在 单词 “held” 和 “hold” 之 间 的 范围 将 检索 到 诸如 “hoax” 和 “hissing” 这 
样 的 字符 串 。 

。 容错 (allowing error): 在 一 个 错误 阔 值 范围 内 的 单词 。 这 种 搜索 模式 检 出 的 是 文本 
中 所 有 与 给 定单 词 “ 相 似 ” 的 单词 。 相 似 的 概念 可 以 有 多 种 定义 。 一 般 假设 模式 或 
者 文本 可 能 包含 错误 〈 来 自打 字 、 拼 写 或 光学 字符 识别 软件 等 )， 那 么 查询 不 仅 应 该 
检 出 给 定 的 词 ， 而 且 应 该 检 出 给 定 词 的 各 种 错误 有 形式。 尽管 已 经 有 许多 模型 用 来 定 [260 
义 单 词 之 间 的 相似 度 ， 但 在 文本 检索 领域 广泛 接受 的 是 Levenshtein BR, RAR 
为 编辑 距离 Cedit distance) (参见 6. 5. 3 节 ) 。 这 个 距离 在 模型 误差 上 要 优 于 其 他 更 
加 复杂 的 方法 ， 如 Soundex 系统 。 因 此 ， 容 错 查询 指定 匹配 一 个 单词 允许 的 最 大 错 
误 数 (如 允许 的 最 大 编辑 距离 )。 这 个 模型 也 可 以 扩展 到 搜索 子 串 (不 只 是 单词 )， 
检索 在 搜索 模式 允许 的 编辑 距离 内 的 任意 文本 段 。 在 这 个 模型 中 ， 如 把 “flower” 
分 开 成 “flo wer” 的 打字 错误 仍然 可 以 在 一 个 错误 的 距离 内 被 检测 到 。 需 要 注意 的 
是 ,在 只 考虑 单个 词 这 种 更 加 严格 的 情况 下 ， 将 检测 不 到 这 个 打字 错误 (因为 不 论 
“flo” 还 是 “wer”， 与 “flower” 的 编辑 距离 都 不 是 1) 。 在 计算 生物 学 中 ， 使 用 这 种 
距离 模型 的 变 体 来 搜索 DNA 和 蛋白质 序列 。 

。 正则 表达 式 (regular expressions); 某 些 文本 检索 系统 允许 用 正则 表达 式 搜 索 。 正 则 
表达 式 是 一 种 更 加 普通 的 模式 ， 是 用 简单 的 字符 串 和 以 下 操作 构建 的 。 

O 联合 (union): WR e, Me. 都 是 正则 表达 式 ， 那 么 (Cale) 与 (el ore) 匹配 
相同 的 元 素 。 
O 连接 (concatenation): 如 果 e, 和 es 都 是 正则 表达 式 ， (el e) 表示 出 现 el 后 面 
立即 跟着 出 现 ee 〈 因 此 ， 简 单 的 字符 串 可 以 被 认为 是 字符 串 中 各 个 字母 的 连接 ) 。 
O 重复 (repetition) : WR e 是 一 个 正则 表达 式 ， 那 么 (C) 匹配 e 出 现 0 次 或 者 多 
次 连续 出 现 的 序列 。 l 
举例 来 说 ， 考 察 一 个 查询 “pro(blem |tein) (s | €)(0|1 |2)” GKLHCRRA F 
符 串 ) 。 这 个 查询 可 以 匹配 单词 “problem02” 和 “proteins”。 正 如 前 面 的 情况 ， 这 种 匹 
配 可 以 限制 到 包括 一 个 完整 的 单词 ， 或 出 现在 单词 内 部 ,或 匹配 任意 文本 段 。 正 则 表 
达 式 也 可 以 与 前 面 几 种 类 型 的 模式 组 合 ， 人 允许 容错 地 搜索 正则 表达 式 。 

。 扩展 模式 (extended patterns): 使 用 对 用 户 更 加 友好 的 查询 语言 来 代表 正则 表达 式 
的 某 些 常 见 形 式 。 扩 展 模 式 是 正则 表达 式 的 子 集 ， 由 更 加 简单 的 语法 来 表示 。 检 索 
系统 在 系统 内 部 将 扩展 模式 转化 为 正则 表达 式 ， 或 者 使 用 特定 的 算法 搜索 。 每 个 系 
统 支 持 自己 的 一 套 扩展 模式 ， 因 此 不 存在 形式 化 的 定义 。 下面 是 一 些 在 许多 新 系统 
中 发 现 的 扩展 模式 的 例子 。 

DO 字符 类 型 ， 即 与 一 组 字符 相 匹配 的 某 些 模式 位 置 。 这 种 特征 包括 : 区 分 大 小 写 的 
匹配 、 使 用 字符 范围 (如 指定 某 些 字符 必须 是 数字 )、 补 足 〈 如 某 些 字符 必须 不 
是 字母 )、 榴 举 (如 一 个 字符 必须 是 元 音 ) 和 通配符 “如 某 些 位 置 上 可 以 匹配 任 
何 字符 ) 等。 
O 条 件 表达 式 ， 即 模式 的 一 部 分 可 以 出 现 或 者 不 可 以 出 现 。 261 
口 通配符 可 以 匹配 文本 中 的 任意 序列 ， 如 任何 以 “flo” 开 始 并 以 “ers” 结 尾 的 单 
ia], ， 既 可 以 匹配 “flowers” 也 可 以 匹配 “flounders”。 
口 组 合 可 以 允许 模式 有 些 部 分 精确 地 匹配 而 另外 一 些 部 分 容错 地 匹配 。 
2. 自然 语言 
将 模糊 布尔 模型 更 推进 一 步 ，AND 和 OR 之 间 的 区 别 可 以 完全 模糊 。 在 这 种 情况 下 ， 
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查询 变 成 将 用 户 感 兴趣 的 单词 和 上 下 文 查询 进行 简单 枚 举 ， 与 查询 中 任何 部 分 匹配 的 文档 都 
将 被 检 出 ， 同 时 那些 与 查询 中 越 多 部 分 匹配 的 文档 将 给 予 更 高 的 权重 。 通 过 让 用 户 描述 不 希 
望 检索 到 某 些 词 来 得 到 否定 形式 ， 因 此 ， 那 些 包 含 这 些 词 的 文档 将 在 排序 计算 中 排 到 后 面 。 
可 以 选 定 一 个 国 值 ， 这 样 权 重 非常 低 的 文档 将 不 会 被 检 出 。 在 这 种 策略 下 ， 我 们 完全 消除 了 
布尔 运算 符 的 影响 ， 进 人 到 了 自然 语言 查询 的 领域 。 事 实 上 ， 可 以 将 布尔 查询 看 做 是 自然 语 
言 查询 的 简化 抽象 。 

这 个 模型 的 使 用 过 程 中 产生 了 许多 新 问题 ， 特 别 是 ， 如 何 对 查询 对 应 的 文档 正确 地 排 
序 。 搜 索 条 件 可 以 使 用 另 一 个 模型 进行 重新 描述 。 其 中 ,文档 和 查询 都 看 做 “ 带 权 重 ” 的 向 
量 〈 每 一 个 坐标 对 应 一 个 感 兴 趣 的 关键 词 或 者 可 以 是 文本 中 出 现 的 一 个 单词 )， 而 查询 也 用 
完全 相同 的 方法 看 待 〈 上 下 文 查询 不 在 这 种 情况 内 )。 因 些 ， 查 询 在 模型 内 部 被 转化 为 一 个 
带 权重 的 向 量 ， 检 索 的 目标 就 是 要 检 出 所 有 那些 与 查询 接近 〈 接 近 程 度 需要 在 模型 中 进行 定 
义 ) 的 向 量 〈 文 档 ) 。 著 想 要 彻底 地 讨论 这 部 分 内 容 ， 可 以 参见 第 3 章 关 于 索引 项 权重 和 向 
量 模型 的 部 分 。 这 就 产生 许多 有 趣 的 港 在 应 用 。 比 如 一 篇 完整 的 文档 也 可 以 作为 一 个 查询 
(因为 文档 也 是 一 个 向 量 )， 这 可 以 很 自然 地 使 用 相关 反馈 技术 〈 即 用 户 可 以 从 查询 返回 的 结 
果 文 档 中 选择 一 篇 文档 ， 并 将 它 作为 新 的 查询 提交 给 系统 ， 从 而 检 出 与 被 选择 的 文档 相似 的 
文档 集 )。 这 个 模型 的 算法 和 那些 基于 模式 搜索 的 算法 完全 不 同 (甚至 有 可 能 不 需要 搜索 文 
本 中 的 每 个 单词 ， 而 是 希望 从 每 篇 文档 中 抽取 出 一 个 较 小 的 、 具 有 代表 性 的 关键 词 集合 )。 


7. 1.3 结构 化 查询 


到 这 里 ， 我 们 已 经 可 以 将 文本 集 看 做 是 一 个 可 以 在 上 下 文 内 容 中 查询 的 文档 集 。 然 而 这 
个 模型 不 能 利用 某 些 已 经 普遍 采用 的 新 文本 特征 ， 比 如 文本 的 结构 。 文 本 集 往 往 有 一 些 内 在 
的 结构 特征 。 基 于 结构 〈 不 仅 是 内 容 ) 的 文本 查询 正在 成 为 一 种 非常 有 吸引 力 的 趋势 。 
HTML 等 用 于 描述 文本 结构 的 标准 语言 进一步 推动 了 这 种 趋势 。 

在 查询 中 辐 时 使 用 内 容 和 结构 可 以 生成 更 强大 的 查询 ， 这 种 查询 比 起 单独 使 用 内 容 的 查 
询 和 单独 使 用 结构 的 查询 更 具有 表达 力 。 通 过 使 用 一 种 整合 了 这 两 种 查询 的 查询 语言 ， 可 以 
改进 文本 数据 库 的 检索 质量 。 

这 种 机 制 建立 在 基本 查询 之 上 。 首 先 选择 一 组 在 内 容 上 满足 特定 约束 的 文档 集 (文档 必 
须 包 含 指定 的 单词 、 短 语 或 者 匹配 指定 的 模式 )。 在 此 之 上 ， 可 以 对 文档 中 结构 性 元 素 〈 如 
章 、 节 等 ) 使 用 包含 、 邻 近 或 其 他 结构 约束 。 可 以 在 结构 化 查询 上 建立 布尔 查询 ， 以 便 组 合 
那些 结构 化 查询 检 出 的 文档 集 。 结 构 化 查询 构成 了 布尔 语法 树 的 叶子 结 点 (参见 图 7-1 中 的 
例子 )。 另 一 方面 ， 结 构 化 查询 本 身 也 有 一 套 复杂 的 语法 。 

在 本 节 中 ， 我 们 将 分 开讲 解 文本 数据 库 中 发 现 的 各 种 结构 类 型 。 图 7-2 描绘 了 几 种 不 同 
的 结构 类 型 。 尽 管 结构 化 查询 语言 应 该 也 可 以 支持 排序 ,但 这 还 是 个 未 解决 的 问题 。 














a) b) c) 


图 7-2 三 种 主要 的 结构 : a) 表单 型 的 固定 结构 ，b) BLEA. o) 层次 结构 
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接 下 来 很 重要 的 就 是 要 区 分 文本 可 以 拥有 的 结构 信息 以 及 可 以 被 查询 出 来 的 结构 信息 。 
一 般 而 言 ， 自 然 语 言 的 文本 可 以 含有 任何 想 要 的 结构 信息 。 然 而 ， 不 同 的 模型 只 允许 查询 这 
些 真 实 结构 中 的 某 一 部 分 。 如 果 我 们 说 可 以 查询 的 结构 是 有 限制 的 ， 那 么 这 意味 着 文本 中 遵 
循 这 些 结构 限制 的 部 分 可 以 查询 出 来 ， 即 使 文本 中 可 能 含有 更 多 的 结构 信息 。 例 如 ， 在 一 篇 
文章 中 ， 节 与 子 节 之 间 可 能 构成 嵌 套 关系 ， 但 是 查询 模型 不 能 接受 递归 结构 。 在 这 种 情况 
下 ， 我 们 不 能 查询 插 套 在 其 他 节 中 的 子 节 ， 即 便 这 些 内 容 就 存在 于 文本 中 。 

1. 固定 结构 | 

文本 中 人 允许 的 结构 传统 上 是 很 受 限 的 。 文 档 中 含有 一 个 固定 的 字段 集 ， 就 像 一 个 填 满 内 
容 的 表单 。 每 个 字段 内 有 一 些 文本 。 有 些 字段 并 非 出 现在 所 有 文档 中 ， 它 们 也 很 少 以 任意 顺 
序 出 现 ， 或 者 在 整 篇 文档 中 重复 出 现 ， 文 档 中 也 很 少 含有 不 在 任何 字段 内 的 文本 。 这 些 字 段 
不 能 典 套 或 者 重 秋 。 在 这 些 字段 上 人 允许 的 检索 活动 需要 严格 限制 ， 只 有 在 一 个 给 定 的 字段 上 
才能 找到 给 定 的 基本 模式 。 现 在 大 部 分 的 商用 系统 都 使 用 这 个 模型 。 

当 文 档 集 有 固定 的 结构 时 ， 这 个 模型 是 合理 的 。 例 如 ， 归 档 的 邮件 可 以 看 做 一 个 邮件 文 
本 的 集合 ， 每 个 邮件 都 有 发 送 者 、 接 收 者 、 日 期 、 主 题 以 及 正文 字段 。 这 样 ， 用 户 就 可 以 搜 
索 发 送 给 特定 某 个 人 、 主 题 为 “football” 的 邮件 。 然 而 ， 这 个 模型 并 不 能 充分 描述 HTML 
文档 中 的 层次 结构 信息 。 

如 果 足 够 精确 地 将 文本 分 到 各 个 字段 ， 那 么 某 些 字段 的 内 容 甚至 可 以 解释 为 文本 之 外 的 
内 容 ， 如 数字 、 日 期 等 ， 因 此 可 以 在 这 些 字 段 上 生成 不 同 的 查询 〈 如 日 期 字段 上 的 月 份 范 
围 )。 不 难看 出 这 个 想法 可 以 很 自然 地 与 关系 模型 联系 起 来 ， 每 个 字段 对 应 于 数据 库 表格 中 
的 列 。 如 果 将 数据 库 看 做 文本 ， 那 么 将 可 以 使 用 比 在 关系 数据 库 系 统 中 更 强大 的 能 力 查 询 文 
本 型 的 字段 。 另 一 方面 ， 关 系数 据 库 可 以 更 好 地 使 用 与 构建 数据 库 时 指定 的 数据 类 型 相关 的 
知识 ， 建 立 更 有 效 的 索引 。 在 过 去 的 几 年 中 , 已 经 提出 了 一 些 混合 两 种 模型 的 方法 ， 主 要 的 
问题 在 于 不 能 达到 最 优 的 性 能 ， 因 为 文本 通常 是 和 其 他 类 型 的 数据 一 起 存储 的 。 虽然 如 此 ， 
已 经 有 多 种 方法 将 结构 化 查询 语言 (Structured Query Language, SQL) 扩展 到 允许 全 文 检 
索 。 在 这 些 方法 中 ， 我 们 将 在 13.6.2 节 中 介绍 XML 全 文 查询 语言 ， 在 7.1.4 节 中 介绍 
SFQL 查询 语言 。 

2. 超 文 本 

超 文本 可 能 代表 与 结构 化 能 力 相 反 的 趋势 。 超 文本 是 一 张 有 向 图 ， 图 中 的 结 点 上 可 能 代 
表 某 些 文本 ， 链 接 代表 两 个 结 点 之 间 的 关系 ， 或 者 代表 结 点 内 部 的 位 置 关 系 。 随 着 Web 的 
爆炸 式 增 长 ， 超 文本 也 受到 了 大 量 的 关注 。 事 实 上 ，Web 成 为 遍布 全 球 的 、 庞 大 的 超 文 本 
类 型 的 数据 库 。 

然而 ， 从 超 文本 中 检索 信息 开始 演变 成 了 一 个 纯粹 的 导航 型 行为 。 也 就 是 说 ， 用 户 不 得 
不 人 工地 跟随 链接 遍历 超 文本 的 结 点 ， 以 便 搜 索 到 他 们 想 要 的 信息 。 他 们 也 不 可 能 根据 超 文 
本 的 结构 查询 信息 。 即 便 是 在 Web 上 ， 人 们 只 能 搜索 结 点 上 的 文本 内 容 ， 而 不 能 根据 链接 
结构 搜索 信息 。 

一 项 有 趣 的 研究 将 在 Web 上 的 浏览 行为 和 搜索 行为 结合 起 来 ， 这 项 研究 是 WebGlimpse 
[1078]。 它 将 经 典 的 导航 行为 与 搜索 当前 结 点 附近 内 容 的 能 力 结合 起 来 。 如 今 , 已 经 出 现 了 
一 些 查询 工具 ， 能 够 完成 基于 超 文 本 内 容 以 及 其 结构 查询 信息 的 目标 。 

3. 层次 结构 

在 固定 结构 和 超 文 本 结构 之 间 存 在 着 一 个 中 间 的 结构 化 模型 ， 这 就 是 层次 结构 。 它 是 对 
文本 的 递归 式 分 解 ， 并 且 对 于 许多 文本 数据 集 来 说 ， 这 也 是 一 个 很 自然 的 模型 〈 如 书籍 、 文 
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第 一 项 研究 集中 在 基本 统计 上 ， 如 查询 出 现 频率 、 项 频 ， 以 及 每 个 查询 包含 的 单词 数 
E. KA 20 世纪 90 年 代 以 来 ， 这 些 统 计 并 没有 发 生 很 大 的 变化 。 在 1997 年 和 1998 年 
[1479，826]， 平 均 查 询 长 度 大 约 是 2.4。 在 使 用 1997 年 数据 的 一 项 研究 中 [L826]， 单 个 词 
的 查询 占 31% ， 而 在 使 用 1998 年 数据 的 另 一 项 研究 中 [1479]， 占 26%. Jansen 和 Spink 
[824] 声称 单个 词 查询 的 百分比 减少 是 一 种 趋势 。 相 反 地 ，jJansen 等 人 的 另 一 项 研究 
[823] 发 现 ， 三 个 词 查询 的 百分比 从 1998 年 的 近 28% 增 加 到 2002 年 的 49%. RI, Jans- 
en[819] 完成 了 一 项 研究 ， 这 项 研究 在 2005 年 5 月 收集 了 来 自 dogpile. com 检索 引擎 的 150 
万 个 查询 ， 发 现 查询 的 平均 长 度 是 2. 8 个 词 ， 最 长 的 查询 使 用 了 25 个 词 。 然 而 ， 这 些 结果 
大 部 分 都 没有 被 很 好 地 解释 过 ， 因 为 在 大 部 分 情况 下 ， 查 询 日 志 规 模 都 比较 小 ， 并 且 在 检索 
引擎 中 的 抽样 过 程 也 并 不 完全 清楚 。Skobeltysyn 等 人 [1487] 在 研究 查询 缓存 时 给 出 了 在 
一 个 较 大 的 数据 集 上 的 统计 信息 。 这 个 大 数据 集 包 含 了 来 自 2007 年 英国 Yahoo! 的 1.85 亿 
个 查询 。 表 7-1 列 出 了 最 近 两 篇 参考 文献 中 有 关 查 询 长 度 的 分 布 。 

表 7-1 查询 长 度 的 会 入 百分比 。 数 据 来 自 [819], MF dogpile com 的 查询 日 志 ， 以 及 来 自 [1487], 

基于 英国 Yahoo! 查询 日 志 
25 








18 
32 
25 
13 


查询 可 以 看 做 是 文本 中 的 词 ， 服 从 有 偏 置 的 分 布 。 实 际 上 ， 查 询 的 频率 满足 参数 为 a 的 
Zipf 法 则 (参见 6. 5. 2 节 )， 也 就 是 说 ， 频 率 最 高 的 第 i 个 查询 的 出 现 频 率 是 O(i") (参见 
图 7-4)。 参 数 a 的 取 值 范围 从 0.6~1. 8[428，123，104]， 造 成 取 值 不 同 的 原因 可 能 是 语言 
和 文化 的 差异 。 无 论 如 何 ， 比 起 Web 文本 ， 这 种 差异 要 小 得 多 。 在 Web 文本 中 参数 a 的 取 
值 接近 于 2。 相 同 的 图 上 显示 了 查询 项 的 分 布 ， 比 完整 的 查询 分 布 偏差 更 大 些 〈 也 就 是 说 a 
更 大 )， 而 与 Web 上 索引 项 的 分 布 更 加 相似 。 

网 页 中 的 词 频 与 查询 中 的 词 频 之 间 的 标准 相关 性 有 差异 ， 但 并 不 高 ， 变 化 范围 为 0. 15 
[123] 一 0. 42[104]。 这 就 是 说 ， 网 页 内 容 中 的 词 也 服从 Zipf 分 布 ， 尽 管 两 者 的 分 布 看 起 来 
很 相似 〈 参 见 图 7-4)， 但 阶 有 很 大 的 不 同 〈 图 7-5 描述 了 这 个 事实 )。 这 意味 着 用 户 搜索 的 
信息 和 用 户 发 表 在 网 页 上 的 信息 存在 着 很 大 的 差异 。 
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图 7-4 英国 2006 年 Web 样本 中 查询 (底部 曲 


线 )、 查 询 项 〈 中 间 曲 线 ) 和 索引 项 的 归 
一 化 频率 [104] 
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图 7-5 对 于 词汇 表 中 的 每 个 词 ， 图 中 横 轴 为 相 
对 文档 频率 ， 纵 轴 为 相对 查询 频率 


[104] 
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。 通用 命令 语言 (Common Command Language, CCL): CCL 是 NISO 根据 Z39. 50 协议 的 提 
议 的 协议 〈Z39. 58 或 ISO 8777)。 该 提议 定义 了 19 种 可 以 交互 使 用 的 命令 。 尽 管 很 少 有 
产品 使 用 这 种 协议 ， 但 是 在 欧洲 ， 该 提议 还 是 很 流行 的 。 该 协议 基于 经 典 的 布尔 模型 。 

。 光盘 只 读数 据 交 换 (Compact Disk Read only Data exchange, CD-RDx): CD-RDx 使 用 客 
户 机 /服务 器 架构 ， 并 在 大 部 分 现 有 的 平台 上 实现 。 客 户 端 是 通用 的 ， 而 服务 器 是 由 光 
盘 发 行商 设计 并 提供 的 ， 作 为 光盘 的 一 部 分 。 该 协议 允许 使 用 固定 长 度 的 字段 、 图 像 
和 音频 ， 并 已 经 被 某 些 美 国 国家 机 构 支 持 ， 如 CIA、NASA 和 GSA。 

。 结构 化 全 文 查询 语 育 (Structured Full-text Query Language，SFQL): SFQL 基于 
SQL 语言 ， 也 是 客户 机 /服务 器 架构 的 协议 。SFQL 已 经 被 航空 航天 领域 (如 美国 
空运 协会 /飞机 工业 协会 ) 接纳 为 标准 。 文 档 对 应 于 关系 表 中 的 行 ， 并 可 以 使 用 
GSML 语言 进行 标注 。 该 语言 定义 了 答案 的 格式 ， 有 一 个 头 部 和 一 个 变 长 的 消息 
区 ,但 没有 定义 任何 特定 的 格式 或 者 标记 。 例 如 ， 一 个 SFQL AA: 

Select abstract from journal. papers where title contains “text search” 
该 语言 支持 布尔 和 逻辑 操作 、 同 义 词典 、 邻 近 操 作 和 某 些 特 殊 的 字符 如 通配符 和 
重复 。 
例如 : 
. where paper contains “retrieval” or like “info %” and date> 1/1/98 
与 CCL 或 CD-RDx 协议 比较 ，SFQL 协议 是 基于 关系 模型 的 ， 虽 然 这 种 模型 对 于 文 
档 数 据 库 并 不 总 是 最 佳 选 择 ， 但 更 加 通用 和 灵活 。 
使 用 这 些 语 言 的 一 些 系 统 将 在 第 16 章 和 第 17 章 中 介绍 。 266 


7.2 查询 属性 


人 们 为 了 查找 信息 ， 通 常 需要 执行 各 种 检索 任务 。 检 索 任 务 可 以 从 查找 特定 信息 到 探索 
性 地 浏览 信息 [1082，1547]， 因 为 人 们 在 不 同时 间 和 不 同 环境 中 的 检索 需求 是 不 一 样 的 。 
在 这 里 ， 我 们 使 用 环境 来 指 代 用 户 的 使 用 环境 。 因 此 ， 检 索 查 询 可 以 跨越 不 同 的 需求 ， 从 查 
找事 实 性 的 信息 ， 如 “巴西 的 首都 是 哪里 ?”e 到 收集 关于 一 个 主题 的 信息 ， 如 “如 果 在 巴塞 
罗 那 度假 ， 我 们 应 该 看 些 什 么 ?”S 再 到 浏览 文档 集 ， 如 浏览 Flickr 图 像 或 者 科技 论文 集 。 

然而 ， 有 的 时 候 ， 在 执行 检索 任务 的 同时 ， 执 行 一 些 并 不 总 是 与 信息 需求 相关 的 任务 也 
是 需要 的 。 事 实 上 ， 在 近 些 年 里 ， 有 些 研究 人 员 提 出 了 针对 Web 上 检索 用 户 的 不 同 需 求 的 
特定 分 类 标准 。 尽 管 这 些 分 类 标准 并 不 十 分 理想 ， 但 是 由 于 它们 被 频繁 地 使 用 和 提 及 ， 记 住 
这 些 分 类 标准 也 是 十 分 重要 的 。 我 们 不 会 在 非 Web 查询 中 包含 任务 信息 ， 因 为 这 些 关 于 任 
务 的 信息 是 依赖 于 实际 应 用 的 ， 并 且 关 于 这 种 情况 的 文献 也 不 是 很 多 。 


7.2.1 Web 查询 的 特征 


Web 搜索 引擎 记录 了 用 户 检 索 信 息 时 的 查询 信息 。 这 些 信 息 包 含 了 查询 本 身 以 及 许多 相 
关 属 性 ， 称 为 查询 日 志 。 典 型 地 ， 一 个 查询 日 志 可 能 也 会 包含 该 查询 提交 给 系统 的 时 间 、 查 询 
来 源 的 IP 地 址 、 用 户 浏览 器 内 存储 的 cookie， 以 及 关于 浏览 器 和 操作 系统 的 信息 。 有 些 系统 也 
会 记录 哪些 检索 结果 和 广告 被 点 击 的 信息 。 由 于 搜索 引擎 在 任意 一 天 都 可 能 接收 到 来 自 上 千 万 
用 户 提交 的 数 亿 个 查询 ， 因 此 查询 日 志 成 为 一 种 理解 各 种 用 户 需求 的 无 价 资源 。 


O 答案 既 不 是 里 约 热 内 卢 也 不 是 圣保罗 。 
© 关键 词 可 以 是 Gaudi、Miro 和 Picasso. 
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章 、 法 律 文档 ， 以 及 结构 化 的 程序 代码 等 )。 图 7-3 显示 了 这 种 结构 的 一 个 例子 。 





Chapter 5 


We cover in this chapter 
the different kind of 
5.1 Keyword Based ... 
































figure with 
section with 
title “structural” 
图 7-3 层次 结构 的 一 个 例子 : 书 的 页 、 概 要 视图 ， 以 及 检索 图 片 的 查询 分 析 树 
男 一 方面 ， 从 超 文 本 结构 简化 到 层次 结构 ， 就 可 以 使 用 快速 算法 来 处 理 查 询 。 一 般 规律 


是 ， 模 型 的 能 力 越 强 ， 模 型 实现 起 来 的 效率 就 越 低 。 


在 第 13 章 中 ， 我 们 将 详细 地 讨论 在 层次 结构 中 检索 信息 的 问题 ， 特 别 是 基于 XML 文 
档 中 的 层次 结构 ， 同 时 包括 已 提出 的 检索 XML 文档 的 所 有 查询 语言 〈 参 见 13. 6. 2 节 ) 。 


7.1.4 查询 协议 


在 本 节 中 ， 我 们 简要 介绍 一 些 已 经 在 软件 应 用 程序 中 默认 使 用 的 文本 数据 库 查 询 语言 。 
其 中 一 些 已 经 作为 查询 光盘 数据 的 标准 ， 或 者 作为 查询 图 书馆 或 者 联机 公共 检索 目录 
(OPAC) 系统 的 中 间 语 言 。 由 于 这 些 语 言 不 是 为 人 类 使 用 而 设计 的 ， 因 此 我 们 称 之 为 协议 ， 
而 不 是 语言 。 关 于 协议 的 更 多 信息 可 以 在 第 16 章 和 第 17 章 中 找到 。 其 中 一 些 内 容 是 由 于 历 
史 原 因 或 者 完整 性 的 要 求 包 含 在 其 中 。 其 中 最 主要 的 协议 是 : 

。 Z39.50: 1995 年 由 ANSI 和 NISO 组 织 批 准 为 标准 协议 。 该 协议 用 来 在 客户 和 主机 
数据 库 管 理 员 之 间 使 用 标准 界面 查询 书目 信息 ， 而 不 管 客户 端 用 户 界面 的 外 观 以 及 
主机 数据 库 的 查询 语言 是 什么 。 假 设 主 机 数据 库 是 一 些 固定 字段 的 文本 数据 集 GX 
要 比 平时 更 加 灵活 )。 也 可 以 在 其 他 地 方 使 用 这 个 协议 ， 如 WAIS 系统 在 内 部 使 用 
这 个 协议 。 该 协议 不 仅 规范 化 了 查询 语言 及 其 语义 ， 并 且 还 规范 了 客户 端 和 服务 器 
建立 会 话 、 通 信和 交换 信息 等 的 方法 。 尽 管 起 初 的 设想 只 是 为 了 操作 书目 信息 〈 使 
用 MARC 格式 )， 但 该 协议 也 扩展 到 查询 其 他 类 型 的 信息 。 

。 广 域 信 息 服务 系统 (Wide Area Information System, WAIS): WAIS 是 万 维 网 发 展 
之 前 的 20 世纪 90 年 代 初 期 很 流行 的 一 组 协议 。WAIS 协议 的 目的 是 成 为 一 个 网 络 
发 布 协议 ， 并 能 够 通过 互联 网 查询 数据 库 。 

在 光盘 发 布 领 域 ， 有 许多 种 查询 协议 。 这 些 协议 的 主要 目标 都 是 提供 “光盘 互 
换 能 力 ”。 这 意味 着 原始 信息 提供 者 和 最 终 用 户 之 间 的 数据 通信 更 加 灵活 。 还 可 以 显 
著 地 节约 成 本 ， 因 为 允许 访问 各 种 信息 ， 而 无 须 购买 、 安 装 以 及 为 不 同 数 据 检 索 应 
用 训练 用 户 。 我 们 简要 地 介绍 以 下 三 种 协议 。 
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一 个 重要 的 问题 是 ， 服从 Zip 法 则 是 因为 1) 有 两 组 用 户 ， 一 组 用 户 询问 热门 的 查询 ; 
另 一 组 用 户 询问 独特 的 查询 ; 还 是 2) 所 有 用 户 都 可 以 询问 两 种 查询 ?在 近期 的 文章 中 ， 
Goel 等 人 [630] 表明 罕 律 ， 特 别 是 长 尾 现象 ， 是 因为 后 一 种 情况 。 

搜索 引擎 日 志 也 记录 了 看 过 的 结果 网 页 的 数量 ， 以 及 查询 后 选择 的 网 页 数量 。 当 很 多 用 
户 通 过 增加 或 删 减 词 来 精 化 他 们 的 查询 时 ， 实 际 上 大 部 分 用 户 只 会 查看 不 到 两 页 结果 《〈 即 户 
不 会 查看 在 返回 结果 中 排名 20 位 以 后 的 网 页 ) 。 表 7-2 列 出 了 4 个 不 同 的 搜索 引擎 在 不 同 范 
围 和 不 同 语言 上 的 比较 数据 (823, 1479, 1519, 1587, 1713]. 


表 7-2 4 个 不 同 搜索 引擎 的 查询 统计 















测度 AltaVista (1998 年 ) Excite (2001 年 ) 
平均 查 词 数 2.4 2.6 
平均 用 户 查 询 数 2.0 2.3 
查询 平均 答案 上 页面 数 1.3 1.7 
布尔 查询 <40% 10% 


AlltheWeb (2001 年 )| TodoCL (2002 年 ) 








除 此 之 外 ， 正 如 经 验 研究 [1479] 显示 的 ,答案 网 页 的 平均 点 击 数 非常 低 ， 大 约 每 个 查 
询 只 有 2 次 点 击 。 在 Excitel1521, 1519] 和 AlltheWeb[823] 上 完成 的 进一步 查询 研究 以 
及 两 者 之 间 的 比较 研究 [1520] 都 表明 ， 在 过 去 的 几 年 里 ， 用 户 查 询 的 焦点 从 休闲 转移 到 电 
子 商 务 ， 详 细 的 讨论 将 在 7. 2.4 节 中 展开 。 在 文献 [168] 中， 作者 分 析 了 非常 大 量 的 网 页 
查询 日 志 。 这 些 查询 日 志 是 由 数 以 千 万 的 用 户 通过 AOL 搜索 Web 时 提交 的 查询 构成 的 。 在 
这 项 研究 中 ， 查 询 日 志 被 分 为 几 个 查询 组 ， 分 别 在 一 天 的 不 同时 间 内 提交 给 系统 。 分 析 结 果 
突出 显示 了 在 不 同 查询 组 中 ， 主 题 性 分 类 查询 的 受 欢迎 度 和 独特 性 的 变化 情况 。 


7.2.2 用 户 搜索 行为 

当 搜索 信息 时 ， 用 户 行为 可 以 通过 导航 图 进行 可 视 化 。 图 7-6 举例 说 明了 一 张 用 户 行为 
的 导航 图 。 在 这 张 图 中 ， 在 不 同 状态 之 间 的 转换 值 表 明了 用 户 选择 那 条 路 径 的 比例 。 这 个 值 
等 价 于 从 一 个 状态 出 发 转移 到 另 一 个 状态 的 概率 。 在 图 7-6 中 ， 我 们 只 画 出 了 转移 概率 大 于 
等 于 1%% 的 边 。 另 外 ， 在 每 个 状态 内 的 数值 代表 了 用 户 停留 在 那个 状态 的 概率 。 从 图 7-6 中 
我 们 可 以 推导 出 以 下 的 结论 : 

。 较 少 使 用 高 级 搜索 但 我 们 必须 拥有 )。 

。 用 户 很 少 精 化 他 们 的 查询 。 

。 用 户 很 少 浏览 目录 。 
这 意味 着 ， 用 户 采 用 了 一 个 试 错 的 信息 搜索 策略 ， 而 不 是 设法 构造 更 好 的 查询 。 


7.2.3 ”查询 意图 

在 Web 出 现 以 前 ， 用 户 查询 都 是 与 搜索 感 兴趣 的 信息 相关 联 的 。 搜 索 通常 是 在 一 个 专 
门 的 环境 中 完成 的 ， 访 问 和 使 用 搜索 系统 不 一 定 是 免费 的 。 因 此 ， 搜 索 工 具 的 设计 也 总 是 定 
位 于 帮助 用 户 写 出 好 的 查询 ， 这 就 意味 着 采用 的 搜索 语言 通常 都 比较 复杂 。Web 的 出 现 彻 
底 地 改变 了 这 种 现象 。 用 户 使 用 搜索 引擎 ， 不 仅 是 为 了 查找 信息 ， 而 且 也 是 为 了 达到 其 他 
目的 。 

第 一 个 并 且 最 受 欢迎 的 Web 查询 分 类 是 由 Broder 提出 的 [268]。 他 将 查询 分 为 3 类 : 
信息 型 (informational) 、 导 航 型 (navigational) ， 以 及 事务 型 (transactional), ESRB 
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询 中 ， 用 户 的 目的 是 查找 想 要 浏览 的 网 站 。 一 个 典型 的 例子 就 是 用 户 准 确 地 回想 起 哪些 查询 
可 以 直接 引导 到 他 们 感 兴趣 的 网 站 一 一 这 种 习惯 可 以 代替 书签 的 功能 。 在 事务 型 查询 中 ， 用 
户 的 目的 是 执行 交互 任务 ， 如 下 载 软件 、 预 订 场所 ， 或 者 购买 商品 。 另 外 ， 需 要 注意 的 是 查 
询 意 图 可 能 是 有 歧义 的 。 举 例 来 说 ， 假 如 用 户 需 要 查找 他 们 喜欢 的 歌手 的 信息 ， 那 么 他 们 是 
要 查找 歌手 的 个 人 简介 ， 还 是 官方 网 站 或 者 一 首 歌 ? Broder 通过 在 线 调 查 的 方式 估计 出 了 
这 3 种 查询 类 型 的 百分比 〈( 数 和 于 人 参与 了 调查 ，10% 的 反馈 率 ， 结 果 偏 向 于 回答 调查 的 用 
户 ) ， 同 时 人 工分 析 了 数 百 个 不 涉及 性 的 查询 。 结 果 表 明 信 息 型 查询 约 占 39%~48%, SR 
型 约 占 20% 一 25 外 ， 事 务 型 为 30% 一 36%。 
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图 7-6 在 搜索 引擎 中 用 户 行为 的 状态 图 示例 [88] 


之 后 ，Rose 和 Levinson 完善 了 Broder 的 分 类 法 [1382]， 他 们 为 信息 型 查询 和 事务 型 
查询 定义 了 一 些 称 为 “在 线 资源 ”的 子 类 。 他 们 也 注意 到 ， 有 些 查询 可 以 被 分 到 同一 个 
大 类 下 的 多 个 子 类 中 。 如 今 ， 导 航 型 查询 的 比例 已 经 比 先 前 提高 了 很 多 ， 据 估计 已 经 占 
到 40%。 而 对 于 信息 型 查询 ， 他 们 发 现 ， 先 前 这 类 查询 的 比例 超过 60%， 但 现在 应 该 低 
了 很 多 。 

近期 的 研究 主要 集中 在 自动 预测 查询 意图 上 [93，822，872，997]。 大 部 分 的 研究 都 使 
用 机 器 学 习 方法 ， 根 据 不 同 查询 的 属性 来 预测 查询 意图 ， 如 查询 中 锚 文 本 的 词 分 布 、 点 击 行 
为 ， 以 及 查询 长 度 。 还 可 以 使 用 相关 属性 ， 如 被 点 击 网 页 的 文本 和 与 结果 相关 的 返回 片段 的 
文本 。Baeza-Yates FA [93] 发 现 ， 信 息 型 查询 的 预测 准确 率 要 比 非 信息 型 查询 的 预测 准 
确 率 高 很 多 。 除 此 之 外 ， 正 如 所 料 ， 他 们 得 出 存在 歧义 的 查询 是 很 难 预测 用 户 意图 的 。 主 要 
的 问题 在 于 ， 由 于 搜索 的 上 下 文 经 常 是 未 知 的 ， 因 此 许多 查询 自身 就 是 有 歧义 的 。 

导航 型 查询 的 另 一 个 问题 就 是 所 谓 的 重新 查询 (refinding queries) [852, 853, 1569], 
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这 类 查询 是 指 用 户 重复 性 地 提交 同一 个 查询 ， 并 且 总 是 点 击 同 一 个 返回 结果 。 这 个 问题 形成 
了 这 样 的 情况 ， 用 户 用 查询 而 不 是 书签 来 保存 网 页 〈 例 如 一 个 会 议 的 缩写 ) Piwowarski 和 
ZaragozalL1280] 表明 ， 对 于 一 部 分 查询 会 话 24%)， 可 以 用 机 史学 习 方法 以 很 高 的 准确 率 
(超过 90%)〉 预 测 下 一 次 的 点 击 。Teevan 等 人 [1568」 也 获得 了 类 似 的 结果 (40%)。 

正如 第 5 章 中 讨论 的 那样 ， 研 究 人 员 试 图 利用 查询 日 志 行 为 来 改进 排序 算法 ， 同 时 也 尝 
试 根据 用 户 以 往 的 行为 预测 用 户 的 个 人 行为 以 及 偏好 。 接 下 来 的 部 分 将 探索 后 一 种 情况 。 


7.2.4 查询 主题 


查询 也 可 以 根据 查询 的 主题 分 类 ， 而 不 考虑 用 户 查 询 意 图 。 举 例 来 说 ， 在 之 前 一 个 有 歧 
义 的 查询 例子 中 搜索 歌手 )， 其 主题 是 音乐 。 

过 去 ,研究 人 员 完 成 了 很 多 查询 主题 分 类 研究 。 特 别 是 ，Spink 和 Jansen 完成 了 一 系列 
关注 于 查询 流 不 同 特性 的 研究 ， 例 如 主题 是 怎样 随 着 时 间或 者 地 理 位 置 变化 的 [819，820， 
823，824，826，1519，1520，1521]j。 这 些 研 究 是 通过 人 工分 析 查 询 日 志 来 完成 的 。 考 虑 到 
查询 主题 的 变化 ， 他 们 发 现 与 娱乐 和 性 相关 的 查询 从 1997 年 的 高 于 36% 的 比例 下 降 到 2001 
年 的 约 15%， 而 同时 与 商务 相关 的 查询 ， 从 13% 增 长 到 将 近 25%。 后 来 的 研究 [819] 显 
示 了 这 种 变化 更 加 显著 ， 表 7-3 列 出 了 这 种 变化 。 值 得 注意 的 事 ， 因 为 查询 日 志 是 用 不 同方 
法 抽样 的 ， 所 以 结果 也 只 是 〈 较 好 的 ) 估计 。 


表 7-3 1997—2001 年 在 搜索 引擎 Excite 上 的 主题 变化 ， 来 自 from E-Sex to E-commerce: Web search chan- 
ges, Computer 35(3), pp: 107-9(Spink, A., Jansen, B.J., Wolfram, D. Saracevic, T. 2002), 
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排名 主题 1997 年 2001 年 
1 Commerce, travel, employment, or economy 13.3 24.7 
2 People, places, or things 6.7 19.7 
3 Non-English or unknown 4.1 11.3 
4 Computers or Internet 12.5 9.6 
5 Sex or pornography 16. 8 8.5 
6 Health or sciences 9.5 7.5 
7 Entertainment or recreation 19.9 6.6 
8 Education or humanities 5.6 4.5 
9 Society, culture, ethnicity, or religion 5.4 3.9 

10 Government 3.4 2.0 











en 
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Performing or fine arts 1.1 


替代 手动 分 类 查询 主题 的 方法 是 使 用 自动 分 类 技术 。Shen 等 人 [1457] 收集 了 搜索 引 
擎 产生 的 最 佳 返回 结果 ， 并 将 结果 映射 到 开放 目录 项 目 (Open Directory Project, ODP) 对 
应 的 类 别 。 结 果 很 好 ， 在 63 个 类 别 上 的 下 值 达 到 了 0.45 左右 。 后 来 ，Baeza-Yates 等 人 
C93] 使 用 各 种 查询 属性 将 查询 主题 自动 分 类 到 ODP 的 类 别 中 。 结 果 显 示 分 类 的 准确 率 依赖 
于 不 同 的 主题 。 这 项 研究 的 一 个 有 趣 的 副产品 是 基于 聚 类 技术 的 半自动 分 类 方法 ， 这 个 方法 
对 于 构造 大 规模 训练 数据 集 和 评估 数据 集 是 很 重要 的 。 结 合 无 监督 技术 和 监督 技术 的 结果 可 
以 在 文献 [169] 中 找到 。 

近来 ，Broder 等 人 [276] 发 表 了 一 种 以 极 高 的 准确 率 把 短 的 /罕见 的 查询 分 到 6000 个 
商业 类 别 中 的 方法 。 这 是 很 有 用 的 ， 举 例 来 说 ， 考 虑 到 所 有 罕见 查询 量 超过 了 搜索 引擎 查询 
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流量 的 一 半 以 上 CHF Zipf 分 布 的 长 尾 效 应 ) ， 为 了 改进 与 罕见 查询 相关 的 广告 质量 ， 这 就 
是 一 个 重要 的 问题 ， 参 见 11. 10. 1 节 。 他 们 根据 每 个 类 别 的 文档 使 用 不 同 的 文本 分 类 器 。 对 
每 个 查询 ， 他 们 通过 一 个 给 定 的 Web 搜索 引擎 检 出 最 靠 前 的 前 《篇 返回 文档 ， 利 用 投票 算 
法 将 该 查询 分 到 最 优 的 一 个 或 多 个 类 别 。 如 果 考 虑 到 在 长 尾 中 处 于 尾部 的 查询 通常 是 最 难处 
理 的 ， 那 么 返回 结果 是 相当 不 错 的 。 

正如 在 查询 意图 预测 中 的 情况 ， 查 询 不 仅 在 意义 上 存在 歧义 ， 而 且 还 可 以 被 分 到 多 个 主 
题 中 ， 特 别 是 当 有 不 同类 型 的 文档 时 〈 如 一 个 查询 不 仅 与 政治 相关 ， 而 且 也 与 新 闻 相 关 ) 。 
少量 的 文章 涉及 歧义 检测 。 例 如 ，Song 等 人 [1503] 利用 一 个 较 大 的 样本 集 估 计 出 大 约 有 
16% 左 右 的 查询 是 存 有 歧义 的 。 


7.2.5 查询 会 话 与 任务 


分 析 查 询 时 面临 的 一 个 很 重要 的 问题 就 是 判定 用 户 的 查询 会 话 。 早 期 的 工作 利用 固定 的 
时 间 片 定义 会 话 。 举 例 来 说 ， 一 个 查询 会 话 可 能 是 由 同一 个 用 户 在 30 分 钟 的 时 间 间 隔 内 提 
交 的 所 有 查询 组 成 的 。 然 而 ， 这 样 的 定义 存在 两 个 问题 ， 1) 会 话 可 能 更 长 ; 2) 在 这 个 会 话 
中 用 户 可 能 有 多 个 目的 。 因 此 ， 最 好 能 够 区 分 基于 时 间 的 会 话 〈 即 在 同一 个 会 话 中 用 户 提 交 
的 所 有 查询 ) 和 任务 (相同 目的 的 查询 序列 )。 另 一 个 问题 是 任务 可 以 跨越 多 个 会 话 ， 这 种 
情况 下 任务 称 为 研究 任务 。 这 个 概念 触发 了 雅虎 的 Search Pad, 

另 一 种 能 够 更 精确 判定 会 话 的 方法 是 设立 最 大 不 活 牙 时 间 。 从 Web 导航 日 志 中 ， 不 同 
的 作者 发 现 了 不 同 的 阐 值 ， 范 围 是 5 一 60 分 钟 (59, 344, 1479], He 和 Goker[632, 728] 
在 他 们 的 日 志 样 本 上 发 现 10 一 15 分 钟 是 最 优 的 不 活跃 时 间 阐 值 。Huang 等 人 [789] 从 信 
息 论 的 角度 考虑 了 从 一 个 查询 到 另 一 个 查询 的 变化 ， 从 而 改进 了 阅 值 。 他 们 在 查询 日 志 上 的 
研究 结果 显示 20 分 钟 是 一 个 较 好 的 阔 值 ， 但 是 把 阔 值 设 为 40 分 钟 时 得 到 了 相似 的 结果 。 然 
mi, Chen 等 人 [364] 指出 靖 值 应 该 是 依赖 于 用 户 和 任务 的 ， 并 提出 了 一 种 自 适应 的 超时 方 
法 。 近 期 ，Jansen 等 人 [825] 调查 了 近 250 万 个 查询 后 发 现 ， 定 义 会 话 的 最 好 方法 是 根据 
IP 地 址 、 浏 览 器 的 cookie 信息 ， 以 及 查询 重 构 模式 “ 即 信 息 变 化 ) 定义 。 他 们 的 研究 结果 
表明 93% 的 会 话 是 由 3 个 或 更 少 的 查询 构成 ， 平 均 每 个 会 话 有 2. 3 个 查询 ， 这 个 结果 与 表 
7-2 中 显示 的 搜索 引擎 统计 结果 一 致 。 

查询 任务 是 一 个 重 构 查 询 的 序列 ， 重 构 查 询 表达 的 是 相同 的 需求 ， 通 常 是 同一 个 信息 需 
求 [847]。Radlinski 和 Joachims[1320] 称 这 样 的 序列 为 查询 链 ， 而 Baeza-Yates[90] RÈ 
为 逻辑 会 话 。 任 务 检 测 是 一 个 很 难 的 问题 ， 有 些 研 究 人 员 利 用 机 器 学 习 技 术 处 理 这 个 问题 
[847，218]。 为 了 检测 任务 ， 重 构 的 查询 被 定义 为 多 种 不 同 的 类 型 : 特 化 、 泛 化 和 拼写 校正 
等 。 当 任务 发 生变 化 时 ， 重 构 查 询 被 看 做 任务 主题 变化 或 者 任务 平行 移动 。 首 先 定义 这 些 查 
询 类 型 的 是 [L1356]， 然 后 (218) 扩展 了 类 型 ， 并 利用 查询 流 模型 预测 查询 的 重 构 形式 
[217]. 


7.2.6 查询 难度 


查询 的 另 一 个 重要 特性 是 其 内 在 自身 的 困难 程度 [336]。 例 如 ， 单 个 词 查询 要 比 短语 查 
询 更 加 简单 。 因 此 ， 有 些 方 法 在 文档 集 的 上 下 文中 评估 查询 的 难度 。 当 可 以 选择 多 个 文档 集 
时 (参见 10. 3. 2 节 )， 这 是 很 重要 的 一 点 。 

有 两 种 不 同 的 方法 可 以 评估 查询 难度 。 最 简单 的 一 种 方法 就 是 运行 查询 并 分 析 相 应 的 答 
案 集 合 。 这 种 方法 称 为 检索 后 预测 机 制 。 第 二 种 方法 更 困难 一 点 ， 就 是 在 执行 查询 前 评估 查 
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询 难度 。 这 种 方法 称 为 检索 前 机 制 。 

1. 检索 后 算法 

检索 后 算法 由 于 可 以 使 用 更 多 的 信息 ， 因 此 更 加 多 样 化 。 例 如 ， 清 晰 度 (clarity score) 
[455] 根据 集合 的 语言 模型 和 得 分 最 高 的 检 出 文档 的 语言 模型 之 间 的 差异 来 预测 查询 难度 。 
查询 反馈 C1785] 考虑 当 使 用 排序 最 高 的 文档 产生 新 的 查询 时 发 生 的 查询 漂移 。 一 种 更 激进 
的 方法 是 文档 和 查询 的 扰动 算法 ， 即 稍微 改变 查询 项 或 者 得 分 最 高 的 返回 文档 ， 然 后 考察 改 
变 后 产生 的 变化 量 [1641], Aslam 等 人 [77] 提出 了 一 种 方法 来 评估 由 不 同 的 检索 算法 产 
生 的 排序 最 高 的 文档 之 间 的 重 倒 是否 相似 。 我 们 将 在 下 面 详 细 地 讨论 最 主要 的 几 种 技术 。 

Cronen-Townsend 等 人 [455] 提出 了 清晰 度 指标 ， 该 指标 面向 集合 评估 查询 的 歧义 
性 。 这 个 方法 基于 一 种 直观 的 想法 ， 即 无 歧义 查询 排序 最 高 的 返回 结果 应 该 是 与 主题 紧密 结 
合 的 ， 并 且 与 主题 特别 相关 的 索引 项 应 该 在 那些 文档 中 出 现 频率 很 高 。 另 一 方面 ， 有 歧义 查 
询 分 布 应 该 是 与 集合 分 布 更 加 类 似 ， 因 为 排序 最 高 的 返回 文档 包含 了 各 种 各 样 的 主题 。 举 例 
来 说 ， 查 询 “artists who died in the 1700's”? 是 一 个 高 难度 的 查询 ， 因 此 很 可 能 表现 不 佳 。 
事实 上 ， 就 像 基 于 关键 词 的 方法 用 关键 词 “artist”，“die” 或 者 “1700” 来 检索 包含 这 些 关 
键 词 的 文档 集 ， 这 样 的 文档 集 将 包含 一 组 广泛 的 主题 。 清 晰 度 的 一 种 扩展 是 考虑 查询 的 时 间 
信息 ， 这 个 方式 是 由 Diaz 等 人 提出 的 [496]. 

正如 所 有 其 他 预测 算法 的 性 能 ， 清 晰 度 算法 的 性 能 依赖 于 文档 集 、 检 索 设 置 ， 以 及 查询 
集 。 为 了 计算 清晰 度 ， 对 于 一 个 给 定 查询 ， 返 回 的 排序 文档 列表 用 来 建立 查询 的 语言 模型 
L985]， 其 中 那些 在 文档 和 查询 中 经 常 共 现 的 索引 项 得 到 更 高 的 概率 。 即 

Po (ki) = >) PCR |d Pd; |q) 


其 中 A 是 检 出 的 文档 集 ，&; 是 词汇 表 中 的 单词 ，4d; 是 文档 ，g 是 查询 。 在 查询 模型 中 ， 
P(d;|q) 可 以 使 用 贝 叶 斯 公式 估计 : 
P(d;\q) = P(q|d;)P(d;) 

这 里 ， 如 果 文 梢 不 包含 查询 项 ， 那 么 其 先 验 概 率 PU) 为 0。 由 于 对 于 所 有 的 文档 ， 概 率 
P(g) 是 相同 的 ， 因 此 省 略 了 这 一 项 。 

典型 地 ， 概 率 估计 需要 通过 重新 分 配 某 些 概率 块 实现 平滑 ， 即 赋 给 那些 没有 出 现在 查询 
中 的 项 非 零 概率 : 

P(d,|q) = P(q|d;)P(d;) 
= P(d;) || P 1a;) 
k, Eq 


~ P(d;) IE (一 Pa) [| AP l0 


k EA k Egad; 


这 里 PC& |C) ERERKEN EN C AEE WRA &, 的 概率 ，》 是 平滑 参数 (参见 3.5 
节 )。 对 于 所 有 的 查询 项 而 言 ， 参 数 4 是 个 常数 ， 是 在 独立 的 测试 文档 集 上 的 一 个 经 验 值 。 

清晰 度 定 义 了 在 查询 语言 模型 P。。 和 文档 集 语言 模型 Pou 之 间 的 Kullback-Leibler 
(KL) 距离 : 
Po Ch) ) 


Pak) (7-1) 





Du (Pom || Pou) = >) P m Cki log ( 
keV 


其 中 V 是 文档 集 上 的 词汇 表 ， 并且 


E] TREC 查询 534 的 标题 。 
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Pou (kid 一 -二 一 


DF 
这 里 F; = Dates 含义 如 前 (参见 第 3 章 )。KL 距离 越 大 ， 查 询 语言 模型 与 文档 集 语言 模型 


的 差异 越 大 。 清 晰 度 的 唯一 参数 是 排序 靠 前 的 文档 数量 (反馈 文档 的 数量 )， 这 些 文档 用 于 
采样 生成 查询 语言 模型 。 

Yom-Tov 等 人 [1753] 比较 了 原始 查询 和 查询 成 分 项 的 排序 列表 。 这 种 方法 的 思想 是 ， 
对 于 表现 好 的 查询 ， 如 果 只 使 用 查询 项 的 子 集 ， 那 么 结果 列表 也 不 应 该 发 生 很 大 的 变化 。 他 们 
应 用 机 器 学 习 方 法 ， 利 用 了 各 种 特征 ， 其 中 包括 用 原始 查询 和 子 查询 获得 的 排序 最 高 的 文档 之 
间 的 重 普 、 排 序 最 高 的 文档 的 得 分 ， 以 及 查询 项 的 数量 。Aslam 等 人 [77] 提出 了 基于 相同 思 
想 的 另 一 个 方法 : 如果 不同 的 排序 方法 检索 返回 的 排序 列表 差异 很 大 ， 那 么 这 个 查询 被 认为 是 
难度 大 的 。 如 果 各 个 排序 列表 中 排序 靠 前 的 文档 的 重 亚 很 大 ， 那 么 这 个 查询 是 比较 容易 的 。 为 
了 评估 性 能 ， 预 测 得 分 与 从 所 有 提交 的 TREC 测试 结果 中 的 平均 精度 和 中 位 精度 进行 了 比较 。 

Zhou 和 Croftl1785] 研究 了 在 Web 搜索 环境 中 估计 查询 难度 的 两 种 方法 。 带 权 信 息 增 
益 (weighted information gain) 度量 了 “从 只 有 一 篇 普通 文档 被 检 出 的 虚构 状态 ， 到 观察 
到 真实 搜索 结果 的 实际 状态 之 间 的 检索 质量 信息 变化 ”( 关 于 信息 增益 的 详细 讨论 可 以 参见 
8.5 节 )。 查 询 反 馈 将 查询 预测 放 在 了 通信 信道 问题 的 框架 内 考虑 。 输 入 是 查询 Q ， 信 道 是 
检索 系统 ， 排 序列 表 上 是 信道 的 噪声 输出 。 根 据 排 序列 表 LL ， 生 成 一 个 新 查询 Q ,将 Q 
作为 输入 检 出 第 二 个 排序 列表 上 L , HALAL’ 之 间 的 重合 作为 预测 得 分 。 两 个 排序 列表 之 
间 重 全 得 越 少 ， 查 询 漂 移 的 可 能 性 越 大 ， 查 询 的 难度 也 越 大 。 在 GOV2 上 的 实验 表明 这 种 
方法 取得 了 相当 大 的 改进 ， 超 越 了 清晰 度 方法 。 查 询 反 馈 的 参数 是 构成 Q 的 查询 项 数量 i ， 
即 1 = 二 |Q | ,以 及 用 于 计算 L 和 上 “重生 的 排序 靠 前 的 文档 数量 ; 。 

Hauff 等 人 [717] 提供 了 一 份 对 这 些 技术 的 综述 和 评估 报告 ， 闻 时 也 提出 了 改进 的 清 
HÆ (improved clarity)。 它 与 清晰 度 主 要 有 两 方面 的 区 别 。 第 一 ， 反 馈 文档 的 数量 可 以 自 
动 设置 ; 第 二 ， 索 引 项 选择 依据 文档 集中 项 出 现 的 频率 。 他 们 证 明 在 Web 环境 中 ， 这 种 改 
进 的 清晰 度 要 优 于 之 前 的 评估 方法 。 后 来 ，Hauff 等 人 也 提供 了 对 这 些 技术 的 综述 和 评估 
L715]， 分析 了 什么 时 候 应 用 这 种 方法 是 有 效 的 [714]。 

2. 检索 前 算法 

检索 前 算法 必须 依据 文档 集 上 查询 项 的 统计 来 预测 查询 的 难度 。 例 如 ， 既 要 考虑 在 文档 
集 内 查询 项 出 现 的 频率 ， 如 平均 反比 文档 频率 (Averaged IDF) 或 简化 的 清晰 度 (Simpli- 
fied Clarity Score)， 也 要 考虑 文档 集 内 查询 项 之 间 的 共 现 频率 ， 如 平均 点 态 互信 息 Aver- 
age Pointwise Mutual Information，PMI) 。 下 面 详细 讨论 这 些 主要 技术 。 

Kwok 等 人 [953] 提出 了 基于 反比 文档 频率 和 文档 集 频 率 来 区 分 弱 查询 和 强 查询 ， 并 
使 用 了 机 器 学 习 方 法 。 平 均 反 比 文档 频率 是 所 有 查询 项 的 反比 文档 频率 的 平均 值 : 


AuTDF(9) = m Saleen) (7-2) 


其 中 g 是 一 个 由 nn, 个 索引 项 构成 的 查询 ， N 是 文档 总 数 ， 而 n 是 包含 索引 项 A, 的 文档 数量 
(参见 第 3 章 ) 。 通 常 认 为 项 频 低 的 查询 能 获得 比 项 频 高 的 查询 更 好 的 性 能 。 

He 等 人 [727] 评估 了 多 种 算法 ， 包 括 查 询 范围 (query scope) 和 简化 的 清晰 度 (sim- 
plified clarity score) 。 查 询 范围 是 根据 文档 集中 至 少 包含 一 个 查询 项 的 文档 数量 来 预测 查询 
难度 。 简 化 的 清晰 度 《〈Simplified Clarity Score, SCS) 与 平均 反比 文档 频率 的 思想 非常 相 
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似 ， 但 这 种 方法 用 项 频 取 代 文 档 频率 ， 
Pru Cki l9) (7-3) 


SCS(q) = FP n Cki lq) X lo 
7 之 m Cki |q) X lows (“BGS 


这 里 Pu (& lq) 是 在 给 定 查询 g BREF. RIVA k 的 最 大 似 然 估 计 。 另 外 , Pu (& ) 是 文档 
集中 索引 项 k: 出 现 的 次 数 除 以 文档 集中 索引 项 的 总 数 。 

最 后 一 种 检索 前 算法 是 平均 点 态 互信 息 (Averaged PMI) ， 计 算 两 个 查询 项 在 文档 上 的 
平均 互信 息 ， 然 后 得 到 所 有 查询 项 对 的 平均 值 : 


— 1 Pan (ki ky) E 
AvPMICQ) = TE EDT, 2 18 ( Bah Pex ED) To 


这 里 Pou (kok) 是 索引 项 k: Mk, 出 现在 同一 篇 文档 中 的 概率 。 注 意 ， 对 于 单个 索引 项 的 查 
询 而 言 , AvPMI 为 0。 

用 检索 前 算法 预测 查询 难度 的 研究 工作 经 常 产生 混杂 的 结果 ， 并 且 这 些 算法 在 准确 率 方面 
通常 比 检索 后 算法 低 。 这 是 因为 对 这 些 算 法 有 用 的 信息 都 更 一 般 且 更 稀疏 。 尽 管 如 此 ， 最 近 提 
出 的 两 种 检索 前 算法 取得 了 与 检索 后 算法 相当 的 性 能 。 这 两 种 方法 都 是 计算 密集 型 的 ， 在 He 等 
人 (729) 的 方法 中 需要 用 到 聚 类 ， 而 在 Zhao 等 人 [1780] 的 方法 中 需要 计算 所 有 文档 的 TF-IDF 
分 布 。 尽 管 这 两 种 方法 是 有 效 的 ， 但 是 它们 的 效率 并 不 足以 让 它们 应 用 于 大 文档 集 ， 如 Web. 

一 个 相关 的 问题 是 评价 答案 文档 的 质量 。Vinay 等 人 [1641] 考虑 用 多 个 预测 器 预测 搜 
索 结 果 的 质量 ， 包 括 一 个 基于 检索 返回 文档 聚 类 倾向 的 预测 器 ， 该 预测 器 通过 查看 返回 文档 
的 “随机 性 ”水 平 ， 从 而 确定 聚 类 倾向 。 最 近 ，Leskovec 等 人 [1007] 提出 一 种 监督 学 习 
方法 ， 该 方法 从 返回 结果 子 图 中 抽取 投影 在 整个 Web 图 上 的 特征 ， 建 立 准确 推断 返回 结果 
质量 的 分 类 器 ， 并 且 可 以 推断 用 户 是 否 、 以 及 如 何 重新 生成 查询 。 他 们 结论 中 的 主要 一 点 
是 ， 好 的 返回 结果 比 差 的 返回 结果 连接 得 更 紧密 。 近 来 ，Barbosa 等 人 [144] 提出 了 一 种 
基于 评估 答案 文档 质量 内 篆 力 的 技术 ， 而 不 是 基于 评估 查询 难度 的 技术 ， 结 果 显 示 查 询 的 相 
关 文 档 要 比 不 相关 文档 有 更 高 的 内 聚 力 ， 同 时 好 的 返回 结果 要 比 差 的 更 加 均匀 。 他 们 使 用 无 
监督 学 习 技 术 ， 利 用 匹配 的 文档 内 容 来 推断 搜索 质量 ， 简 化 并 改进 之 前 的 研究 工作 。 


7.3 趋势 和 研究 问题 


本 章 讨论 了 Web 查询 的 主要 特点 以 及 用 户 的 搜索 行为 。 在 这 个 主题 下 仍然 还 有 许多 没 
有 解决 的 问题 ， 包 括 更 好 地 预测 查询 意图 以 及 更 好 地 用 户 建 模 。 总 之 ， 挖 掘 查询 现在 已 经 是 
一 个 重要 的 研究 领域 ， 这 部 分 将 在 11.10. 2 节 中 简要 描述 。 

我 们 也 讨论 了 从 文本 数据 库 中 检索 信息 的 查询 语言 | 
的 主要 方面 。 我 们 涉及 查询 的 方方面面 ， 从 最 典型 的 方 ”- 表 7-4 查询 类 型 和 模型 之 问 的 关系 





法 到 现在 出 现 的 最 新 颖 的 方法 ， 从 搜索 单词 到 搜索 扩展 一 Arm 
模式 ， 从 布尔 模型 到 查询 结构 。 表 7-4 列 出 了 在 不 同 的 tt 4 
模型 中 允许 的 不 同 查询 类 型 。 尽管 概率 模型 和 贝 叶 斯 信 。 


念 网 (Bayesian Belief Network, BBN) 模型 都 是 基于 
单词 查询 ， 但 这 些 模型 可 以 结合 集合 操作 。 

在 图 7-7 中 ， 我 们 描绘 了 本 章 涉及 的 操作 类 型 ， 以 及 它们 之 间 的 结构 关系 (并非 所 有 的 
操作 都 存在 于 所 有 的 模型 中 ， 也 不 是 所 有 的 操作 必须 用 来 表达 查询 )。 这 张 图 表明 了 我 们 可 
以 在 短语 上 使 用 布尔 操作 表达 查询 〈 跳 过 结构 查询 )， 也 可 以 用 单词 或 用 正则 表达 式 表 达 查 
询 〈 跳 过 容错 功能 ) 。 





贝 叶 斯 信念 网 词 
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布尔 查询 
模糊 布尔 查询 





图 7-7 涉及 的 查询 类 型 以 及 它们 之 间 的 结构 关系 

全 文 数据 库 查询 语言 将 朝 着 提供 更 灵活 的 查询 描述 发 展 。 当 文本 模型 正 朝 着 更 好 地 理解 
用 户 需求 〈 如 通过 提供 相关 反馈 ) 的 方向 发 展 时 ， 查 询 语言 在 查询 描述 中 也 变 得 越 来 越 强 
大 。 扩 展 模式 和 容错 搜索 能 够 在 所 需 信息 知识 不 完整 的 情况 下 发 现 那些 模式 ， 而 且 查询 文本 
的 结构 也 变 得 更 普遍 了 。 

另 一 个 重要 的 研究 主题 是 可 视 化 查询 语言 。 可 视 化 表示 可 以 帮助 没有 经 验 的 用 户 生 成 复 
杂 的 布尔 查询 。 另 外 ， 可 视 化 查询 语言 可 以 包括 文档 结构 [118]。 这 个 主题 是 与 用 户 界面 和 
可 视 化 相关 的 《参见 第 2 章 ) 。 

一 个 重要 的 研究 趋势 是 面向 语义 网 的 查询 语言 。 现 在 查询 RDF 数据 的 标准 语言 
SPARQL[1661]。RDF 是 一 个 有 标记 的 有 向 图 ， 代 表 了 Web 上 的 信息 (参见 6. 4.4 节 )。 
这 种 查询 语言 结合 了 SQL 语言 的 能 力 以 及 额外 的 操作 ， 以 发 现 RDF 数据 中 的 图 模式 及 它们 
的 合 取 和 析 取 关系 。SQL 语言 是 关系 数据 库 的 标准 查询 语言 。 


7.4 文献 讨论 

典型 的 查询 语言 操作 (最 简单 的 模式 、 布 尔 模型 和 固定 结构 ) 可 以 在 现在 的 商用 系统 中 
找到 ， 如 Autonomy, Verity, Endeca, Fast 以 及 其 他 一 些 系统 ， 也 可 以 在 早期 的 非 商 用 系 
统 中 ， 如 Glimpse[1674] 或 IgrepL65]， 以 及 更 新 的 系统 ， 如 IndriL809]、Lucene[L 1061], 
Terrier[ 1574] 或 Zettair[1769] 中 找到 。 

模糊 布尔 模型 是 在 文献 [1412] 中 介绍 的 。Levenshtein 距离 是 在 文献 [1012] 和 [63]. 中 介 
绍 的 。Soundex 系统 在 [1913] 中 描述 。 文 献 [1195] 中 给 出 了 不 同 相 似 度 模型 有 效 性 的 比较 。 
一 份 很 好 的 关于 正则 表达 式 介 绍 在 文献 [772] 中 。 文 献 [1724] 中 介绍 了 一 种 扩展 模式 上 的 语言 。 

关于 Z39. 50 系统 的 更 多 信息 可 以 从 文献 [62] PRE. WAI 系统 的 更 多 信息 可 以 在 
文献 [860] PAB. SFQOL 的 详细 介绍 可 以 参看 文献 C807]. 

与 Web 相关 的 查询 语言 可 以 查看 万 维 网 联盟 网 站 (World Wide Web Consortium, 
W3C) [190], 

想 要 获得 更 多 Web 查询 的 信息 以 及 它们 的 特性 ， 可 以 阅读 (821, 1517] 这 两 本 书 。 可 
惜 ， 几 乎 没有 关于 其 他 信息 检索 系统 的 查询 分 析 报 告 。 文 献 [1714」 是 一 篇 关于 Web 会 话 
分 析 的 近期 论文 。 

关于 通常 情况 下 的 赛 律 信息 可 以 阅读 由 Newman 写 的 一 篇 很 好 的 综述 [1199]. 

文献 [716] 是 一 篇 很 好 的 关于 检索 前 预测 查询 难度 的 综述 。 近 期 更 完整 的 综述 是 由 

Carmel 和 Yom-Tov 完成 的 [335]. 
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8.1 介绍 


早 在 公元 前 300 年 ， 亚 历 山大 图 书馆 (Great Library of Alexandria) 的 馆 员 就 已 经 开始 
对 存储 的 文档 进行 处 理 ， 以 便于 日 后 进行 检索 与 阅读 。 随 着 时 间 的 推移 ， 文 档 集 越 来 越 大 ， 
这 一 问题 也 就 变 得 愈加 困难 。 在 数 以 百 计 的 图 书 中 顺序 搜索 来 查找 一 本 感 兴趣 的 特定 图 书 ， 
已 经 变 成 了 一 个 元 长 、 耗 时 且 不 现实 的 过 程 。 为 了 缓解 这 一 问题 ， 图 书馆 员 开 始 对 文档 进行 
标注 。 这 样 的 举措 可 以 为 文档 的 内 容 提 供 元 数据 ， 因 此 就 可 以 把 图 书 按 特 定 的 视图 进行 组 
织 ， 从 而 能 够 进行 快速 的 查找 与 检索 。 

最 初 的 文档 标注 方法 是 对 每 个 文档 赋予 一 个 唯一 的 标识 符 。 当 用 户 知 道 他 们 所 需要 的 图 
书 时 ， 这 种 方法 可 以 很 好 地 解决 问题 ， 但 并 不 能 处 理 更 一 般 的 问题 一 一 如 何 找到 特定 主题 的 
文档 。 在 这 种 情况 下 ， 一 种 很 自然 的 解决 方案 是 将 文档 按 共同 的 主题 进行 分 组 ， 然 后 对 每 个 
组 别 赋予 一 个 或 者 多 个 有 实际 意义 的 标签 。 

每 个 标注 好 的 组 称 为 一 个 类 别 (class)， 即 是 一 个 可 以 将 内 容 与 其 标签 描述 相符 的 文档 
加 入 其 中 的 集合 。 例 如 ， 我 们 可 以 构建 一 个 标签 为 心肌 手术 的 类 别 ， 并 把 所 有 描述 治疗 心肌 
疾病 手术 过 程 的 文档 都 加 入 到 这 个 类 别 中 。 在 这 个 例子 中 ， 类 别 标 签 描述 了 文档 中 涉及 的 主 
题 ， 因 此 这 样 的 分 类 任务 通常 称 为 主题 分 类 。 这 可 能 是 最 重要 的 一 种 分 类 问题 ， 因 此 以 下 的 
讨论 和 例子 都 是 基于 该 问题 的 。 

类 别 不 仅 能 够 用 来 描述 文档 的 主题 ， 同 时 还 能 够 表达 与 文档 相关 的 其 他 特征 ， 如 语言 、 
流派 、 质 量 、 权 威 性 、 流 行 度 以 及 垃圾 信息 等 。 例 如 ， 有 一 组 对 餐厅 的 评论 意见 ， 而 我 们 需 
要 区 分 出 高 质量 的 评论 与 低 质量 的 评论 。 可 以 将 这 个 问题 建 模 为 一 个 二 元 分 类 问题 ， 两 个 类 
别 为 高 质量 评论 和 低 质 量 评论 。 在 这 个 例子 当中 ， 类 别 描述 了 文档 《评论 意见 ) 的 质量 ， 而 
不 是 它们 的 主题 或 者 评论 意见 的 倾向 性 。 

文档 加 入 到 类 别 的 过 程 〈 即 对 文档 赋予 一 个 或 多 个 类 别 标 签 ) 通常 称 为 文本 分 类 。 有 
Ay, AHR AAR (category)， 文 本 分 类 的 英文 “text classification” 也 写 做 “text cate- 
gorization”。 在 本 书 中 ， 我 们 把 “classification” 与 “categotization” 看 做 相同 的 过 程 而 不 
加 任何 区 分 ， 都 称 为 分 类 。 

一 个 相关 的 问题 是 将 一 i 但 并 不 对 其 进行 标注 。 由 于 每 个 子 
集 都 没有 标签 ， 因 此 不 认为 存在 任何 的 类 别 。 相 应 地 ， 我 们 把 每 个 子 集 称 为 一 个 签 Clus- 
ter)， 把 子 集 分 割 的 过 程 称 为 文本 聚 类 (text nie. 这 里 ， 我 们 把 聚 类 当做 一 个 更 为 
简化 的 分 类 问题 。 

文本 分 类 提供 了 一 种 组 织 信 息 的 手段 ， 以 获得 对 数据 更 好 的 理解 与 解释 。 举 例 来 说 ， 有 
一 家 大 型 的 工程 公司 多 年 来 完成 了 许多 大 型 项 目 。 每 个 工程 都 有 数 以 百 计 的 设计 文档 、 规 划 
蓝图 、 档 案 信息 、 财 务 数据 以 及 桥梁 、 隧 道 和 铁路 的 资格 证 书 。 因 此 ， 产 生 了 成 于 上 万 的 关 
于 该 公司 业务 的 文档 。 可 以 将 所 有 文档 分 成 多 个 类 别 ， 从 而 建立 公司 业务 信息 的 结构 化 视 
图 ， 对 决策 过 程 提供 支持 ， 因 此 具有 很 高 的 价值 。 这 也 说 明文 本 分 类 已 经 成 为 现代 企业 进行 
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知识 管理 的 关键 技术 。 
本 章 将 讨论 关于 文本 分 类 的 经 典 算 法 和 评价 方法 ， 我们 的 讨论 将 包括 监督 算法 和 无 监督 
算法 。 


8.2 文本 分 类 的 特性 描述 


许多 文本 分 类 算法 都 是 由 机 器 学 习 领 域 的 研究 人 员 设 计 出 来 的 。 因 此 ， 我 们 首先 简要 讨 
论 机 器 学 习 与 文本 分 类 的 关系 。 


8.2.1 机 器 学 习 


机 器 学 习 是 人 工 智 能 [916, 1106, 1107, 1122, 1123, 1399] 范畴 中 一 个 广阔 的 领域 ， 
它 主要 研究 算法 的 设计 和 开发 ， 从 而 学 习 Ceard 输入 数据 中 所 表达 的 模式 [214，712， 
923，975，1140，1313，1446，1707 ]。 这 些 经 过 学 习 得 出 的 模式 (可 能 是 非常 复杂 的 )， 可 
以 用 于 预测 那些 未 知 的 新 数据 。 机 器 学 习 算法 的 应 用 包括 自然 语言 处 理 、 医 疗 诊断 、 信 用 卡 
诈骗 检测 、 上 股票 市 场 分 析 、 计 算 机 视觉 和 信息 检索 等 领域 。 对 于 信息 检索 来 说 ， 文 本 分 类 是 
一 个 重要 的 问题 ,机 器 学 习 对 它 的 影响 很 大 。 这 一 点 我 们 会 在 本 章 的 相关 内 容 中 详细 阐述 。 

机 器 学 习 算 法 从 根本 上 来 说 依赖 于 学 习 阶 段 ， 即 产生 一 个 能 够 对 输入 数据 所 表达 的 模式 
进行 编码 的 模型 或 者 函数 。 根 据 不 同 的 学 习 机 制 ， 机 器 学 习 算 法 基本 上 可 以 分 为 三 类 监督 
学 习 、 无 监督 学 习 和 半 监 督学 习 。 其 他 学 习 算 法 包括 了 增强 学 习 和 直 推 学 习 ， 这 里 我 们 不 对 
它们 进行 讨论 。 

监督 学 习 (214, 712, 923, 975] 需要 从 输入 的 训练 数据 中 学 习 一 个 函数 。 在 文本 分 类 
中 ， 训 练 数据 是 由 文档 -类 别 对 组 成 的 ， 其 中 类 别 是 由 专家 对 给 定 文档 标注 的 。 这 些 训练 数 
据 可 以 用 于 训练 分 类 函数 ， 该 函数 对 未 知 新 数据 的 类 别 进行 预测 。 这 种 方法 只 有 在 学 习 函 数 
能 够 对 未 知 数 据 做 出 高 精度 的 预测 时 才 会 有 效 。 监 督学 习 是 一 些 著 名 的 文本 分 类 算法 的 基 
础 ， 我 们 将 在 8. 4 节 具 体 地 讨论 这 些 方 法 。 

无 监督 学 习 [147, 916, 1122, 1123, 1399] 与 监督 学 习 的 主要 区 别 在 于 它 没 有 训练 数 
据 。 无 监督 学 习 算 法 包括 了 神经 网 络 模型 、 独 立成 分 分 析 以 及 聚 类 。 对 于 文本 分 类 的 目标 来 
说 ， 聚 类 是 其 中 我 们 最 为 感 兴趣 的 无 监督 学 习 算 法 ， 我 们 将 在 8. 3 节 进 行 讨论 。 

PERFI [358] 把 少量 的 标注 数据 和 大 量 的 未 标注 数据 结合 起 来 ， 从 而 提高 预测 性 
能 。 而 且 预 测 性 能 的 提高 不 需要 耗费 为 大 规模 数据 进行 标注 的 时 间 。 这 里 我 们 不 对 半 监 督学 
习 做 深入 讨论 ， 有 兴趣 的 读者 可 以 阅读 参考 文献 [1787]， 该 文献 对 这 一 领域 的 研究 工作 进 
行 了 回顾 。 

监督 学 习 和 无 监督 学 习 对 文本 分 类 的 算法 设计 会 有 直接 的 影响 ， 这 在 随后 的 讨论 中 会 表 
现 得 更 为 明确 。 


8.2.2 文本 分 类 问题 
文本 分 类 问题 可 以 形式 化 地 表述 为 以 下 形式 〈 我 们 的 讨论 受到 了 [1446] 的 很 大 影响 ) 。 
文本 分 类 ”给 定 文 档 集 刀 与 类 别 集 合 C 一 {ci ,cs，…,cL) ， 类 别 集合 包含 了 工 个 
类 别 及 相应 的 标签 。 另 外 还 给 定 了 一 个 二 值 函 数 太 :DXC 一 (0,1》， 即 对 每 个 文 
档 -类 别 对 [di cr] 都 赋予 一 个 0 或 1 的 值 ， 其 中 号 ED，c EEC。 如 果 赋 值 为 1， 
表示 文档 d 是 类 别 cs 的 成 员 ; 如 果 赋 值 为 0， 表 示 文 档 吃 不 是 类 别 c, 的 成 员 。 
该 文本 分 类 的 定义 是 宽泛 的 ， 既 包含 了 监督 算法 又 包含 了 无 监督 算法 。 为 了 说 明 无 监督 
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算法 的 典型 情况 ， 考 虑 这 样 一 个 例子 : 在 集合 C 为 空 〈 即 不 提供 类 别 ) 的 情况 下 进行 聚 类 。 
算法 构建 一 组 空 的 无 标签 的 艇 (入 的 数目 通常 由 输入 确定 )， 利 用 文档 自身 的 属性 来 进行 划 
分 。 然 而 在 一 般 情况 下 ， 为 了 达到 高 精度 的 文本 分 类 ， 我 们 应 当 采 用 监督 算法 。 

如 果 对 分 类 器 没有 特别 的 约束 ， 那 么 同一 个 文档 可 能 会 被 赋予 两 个 甚至 更 多 的 类 别 标 
签 。 这 种 情况 下 ， 我 们 称 这 个 分 类 器 属于 多 标签 (mnultirlabel) 类 型 。 如 果 我 们 要 求 分 类 器 
对 每 个 文档 都 赋予 单一 的 标签 ， 这 个 分 类 器 属于 单 标 签 (single label) 类 型 。 后 面 这 种 情况 
往往 是 更 加 困难 的 ， 因 为 我 们 不 仅 需要 在 每 个 文档 -类 别 对 上 进行 决策 ， 而 且 还 需要 判断 哪 
一 个 类 别 对 于 给 定 的 文档 d 来 说 是 最 好 的 。 这 里 ， 我 们 不 涉及 如 何 保证 每 个 文档 只 属于 一 
个 类 别 的 额外 步 又。 相反 ， 我 们 主要 关注 多 标签 的 分 类 器 。 

上 面 所 定义 的 分 类 函数 天 是 二 值 的 ， 意 味 着 判断 文档 d; 与 类 别 c, 的 成 员 关 系 是 一 个 二 
元 决策 过 程 。 但 是 ， 有 时 将 函数 大 构建 为 计算 文档 d 对 于 类 别 c 的 隶属 度 。 在 这 种 情况 下 ， 
对 于 每 个 类 别 c, 都 有 一 组 文档 成 为 其 候选 成 员 。 在 信息 检索 中 这 是 一 种 很 自然 的 选择 ， 排 
序 函 数 将 文档 d; 的 文本 信息 和 类 别 c，, 的 标签 信息 作为 输入 并 给 每 个 文档 -类 别 对 赋予 一 个 数 
值 排序 。 而 且 我 们 可 以 利用 这 个 排序 对 某 个 文档 是 否 属于 某 个 特定 的 类 别 做 出 决策 。 比 如 ， 
我 们 可 以 在 天 (ai ,cs) 大 于 某 个 阐 值 时 ， 认 为 文档 d 是 类 别 c, 的 成 员 ; 否则 ， 就 认为 文档 d; 
不 是 类 别 cs 的 成 员 。 


8.2.3 文本 分 类 算法 


文本 分 类 算法 通常 都 是 无 监督 算法 或 者 监督 算法 。 前 者 适用 于 大 规模 无 标注 的 文档 集 ， 
后 者 则 更 加 复杂 同时 也 能 获得 更 好 的 结果 ， 但 需要 可 用 的 标注 数据 。 

当 训练 样本 不 提供 任何 额外 信息 ， 即 输入 数据 不 包含 文档 属于 哪个 预定 义 的 类 别 信 息 
时 ， 算 法 被 称 为 是 无 监督 的 。 图 8-1 显示 本 章 将 讨论 的 无 监督 算法 。 它 们 主要 可 以 分 为 两 
X: 聚 类 和 朴素 分 类 。 对 于 育 类 ， 我 们 讨论 分 割 Cpartitioning) 聚 类 与 凝聚 〈agglomera- 
tive) RA; 对 于 朴素 分 类 ， 我 们 将 讨论 一 种 基于 向 量 模型 的 算法 ， 这 种 方法 将 文档 的 索引 
项 与 类 别 标签 进行 直接 的 匹配 。 
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图 8-1 本 章 讨论 的 无 监督 算法 
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当 一 个 算法 使 用 了 人 工 标注 或 者 人 工 辅 助 标 注 信 息 时 ， 这 样 的 算法 称 为 监督 算法 。 在 标 
准 情况 下 ， 类 别 集合 以 及 每 个 样本 文档 所 对 应 的 类 别 是 给 定 的 。 这 些 由 专家 标注 的 样本 组 成 
了 训练 集 (training set)， 可 以 用 来 学 习 分 类 函数 。 如 果 学 习 了 该 函数 ， 那 么 就 可 以 用 它 来 
对 未 知 的 新 文档 进行 分 类 。 

举例 来 说 ， 有 四 个 平均 有 100 篇 文档 的 类 别 ， 每 篇 文档 都 是 由 专家 组 进行 类 别 标注 。 某 
个 分 类 器 可 能 会 对 所 有 的 文档 进行 解析 ， 然 后 找 出 每 个 类 别 中 出 现 次 数 最 多 的 索引 项 。 这 些 
索引 项 可 以 认为 是 这 个 类 别 的 初始 描述 (description)， 从 而 用 来 对 新 的 文档 进行 分 类 。 

通常 ， 训 练 样本 的 规模 越 大 ， 分 类 器 的 效果 就 越 好 。 然 而 ， 我 们 必须 注意 的 一 种 情况 
E: 分 类 器 变 得 太 特殊 ， 可 能 只 反映 了 训练 样本 的 特征 ， 而 无 法 用 来 预测 未 知 的 新 数据 。 这 
种 现象 我 们 一 般 称 为 过 拟 合 (overfitting)。 

为 了 对 分 类 器 进行 评价 ， 我 们 把 它 应 用 到 一 组 已 经 事先 确定 类 别 的 未 知 数据 上 ， 这 样 的 
数据 集合 我 们 称 为 测试 集 (test set) 。 如 果 分 类 器 能 够 对 测试 集中 大 多 数 的 数据 做 出 正确 的 
分 类 ， 那 么 我 们 就 认为 训练 过 程 和 得 到 的 分 类 器 是 合适 的 。 

图 8-2 显示 了 我 们 将 在 本 章 中 进行 讨论 的 六 种 文本 分 类 的 监督 算法 : 决策 树 、 最 近邻 、 
Rocchio 相关 反馈 、 朴 素 贝 叶 斯 、 支 持 向 量 机 以 及 集成 学 习 。 对 于 每 个 领域 ， 我 们 将 讨论 其 
中 最 重要 的 算法 和 主要 的 变 体 。 
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图 8-2 本 章 讨论 的 监督 算法 
8.3 无 监督 算法 
本 节 讨 论 图 8-1 所 示 的 文本 分 类 中 的 无 监督 算法 。 我 们 不 会 包括 领域 中 的 所 有 算法 ， 而 
只 是 介绍 其 中 具有 代表 性 的 算法 。 
8.3.1 聚 类 


假定 训练 数据 只 包含 有 文档 集合 ， 并 没有 类 别 标 签 。 在 这 种 情况 下 ， 分 类 器 的 任务 是 将 
文档 分 成 多 个 组 或 能 〈cluster) ， 这 个 过 程 中 通常 也 叫做 聚 类 〈clustering) 。 
MARK: 给 定 文档 集 DD， 文 本 聚 类 方法 可 以 按 事先 定义 的 准则 将 这 些 文档 自动 地 分 为 
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KK * 
图 8-3a 显示 了 将 夏威夷 的 酒店 的 网 页 分 成 五 个 簇 的 过 程 ， 每 个 簇 都 是 由 同一 个 岛屿 上 
的 酒店 组 成 的 〈 即 这 个 例子 中 的 聚 类 标准 是 地 理 邻 近 性 ， 更 为 靠近 的 酒店 会 被 分 到 同一 个 复 
中 )。 尽 管 这 一 聚 类 过 程 对 人 类 来 说 是 很 自然 的 ， 但 却 很 难 由 完全 自动 化 的 步骤 来 实现 。 其 
中 的 原因 在 于 酒店 的 网 页 中 有 许多 索引 项 都 是 相同 的 ， 没 有 人 类 的 帮助 理解 ， 是 很 难 辨识 上 
下 文中 的 哪些 索引 项 对 描述 酒店 位 置 有 较 大 影响 。 因 此 ， 聚 类 方法 面临 着 这 样 一 个 固有 的 问 
题 : 自动 生成 的 簇 常常 与 人 类 的 直觉 结果 不 相符 合 。 
输入 文档 集 ; | RA, K=5 


B Aston Kaha Lani 
The Royal Hawaiian 
Sheraton Kauai Resort 
Sheraton Maui Resort 
Sheraton Keauhou Bay Resort 
Princeville Resort 
B Keauhou Beach Resort 
Kona Coast Resort 
Viceroy Santa Monica Beach Hotel 
Hilton Kauai Beach Hotel 
W Honolulu Diamond Head 
Hanalei Colony Resort 
B Maui Prince Hotef Makena Resort 
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B Kona Coast Resort 
Keauhou Beach Resort 
8 Sheraton Keauhou Bay Resort 





: D Viceroy Santa Monica Beach Hotel ~ | 








a) 
输入 文档 集 文本 分 类 , 共 5 类 OOO 
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The Royal Nawalan | Ca i T 4 Monshi Tiai Head 
Sheraton Kauai Resort Aston Kaha Lani bc E aa 
Sheraton Maui Resort _ Hanalei Colony Resort i ; 毛 仇 a 
l 8 Sheraton Keauhou Bay Resort _ Sheraton Kauai Resort y Sheraton Maui Resort 
Princeville Resort Hilton Kauai Beach Hotel Maui Prince Hotel Makena Resort 
Keauhou Beach Resort i — rr o So 
| ZARDY 。 
i 有 wm Wow Resort ida Beach Hotel | Kona Coast Resort 
Y g Mionica Beach Hote Keauhou Beach Resort 
Hilton Kauai Beach Hotel _ Sheraton Keauhou Bay Resort 
W Honolulu Diamond Head pment 
SS Hanalei Colony Resort 上 
Maui Prince Hotel Makena Resort % Viceroy Santa Monica Beach Hotel A 


b) 


图 8-3 无 监督 文本 分 类 方法 应 用 于 夏威夷 酒店 的 网 页 : a) 聚 类 的 结果 ;， b) 酒店 所 分 配 的 类 别 


倘若 要 求 对 聚 类 的 结果 进行 标注 ， 那 么 这 个 问题 就 会 变 得 更 加 困难 。 依 然 以 图 8-3a 为 
例 ， 这 个 任务 进一步 要 求 我 们 标识 每 个 能 中 酒店 所 在 的 岛屿 。 如 果 完 成 顺利 的 话 ， 结 果 将 如 
图 8-3b 所 示 。 十 分 遗憾 的 是 ， 自 动 生成 的 标签 往往 与 图 示 的 情况 有 很 大 的 差别 ， 并 且 对 人 
来 说 没有 明确 的 含义 。 基 本 上 ， 自 动 生成 簇 标签 仍旧 是 一 个 非常 困难 的 问题 。 

尽管 产生 的 结果 很 难 解 释 ， 但 聚 类 还 是 能 够 帮助 我 们 更 深刻 地 理解 数据 并 且 发 现 数据 的 
一 些 自然 属性 。 一 个 例子 是 处 理 每 日 数 以 千 计 的 银河 系 图 片 。 通 常 并 不 存在 明确 的 先 验方 法 
来 对 数据 进行 组 织 。 因 此 ， 一 种 可 能 的 过 程 是 将 它们 按 共 同 的 特征 进行 聚 类 ， 然 后 从 最 紧密 
的 艇 当中 寻找 数据 的 模式 。 同 样 的 方法 还 可 以 用 于 分 析 人 类 语言 、 股 票 和 基因 序列 等 。 

为 了 说 明文 档 聚 类 的 一 般 过 程 ， 我 们 现在 来 讨论 一 种 著名 的 分 割 算法 一 一 开 均值 K- 
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means) 以 及 其 变 体 二 分 K 均值 。 我 们 同样 会 讨论 三 种 凝聚 聚 类 的 方法 ， 包 括 单 连通 、 全 连 
通 和 平均 连通 。 

1. K 均值 聚 类 

在 K 均值 聚 类 中 [1069]， 灸 的 数目 天 通常 是 由 输入 指定 的 。 每 个 簇 由 一 个 中 心 点 来 表 
示 ， 称 为 类 中 心 〈centroid) 。 文 档 集 被 划分 为 天 个 艇 ,将 每 篇 文档 分 配 到 与 类 中 心 最 为 接 
近 的 簇 中 。 当 所 有 的 文档 都 划分 完 之 后 ， 每 个 簇 的 类 中 心 都 会 被 重新 计算 。 整 个 过 程 会 不 断 
地 重复 ， 直 到 类 中 心 不 再 改变 。 

基本 的 K 均值 方法 是 按 批 处 理 模式 〈batch mode) 进行 的 [573]， 即 在 重新 计算 类 中 
心 之 前 ， 将 所 有 的 文档 都 分 配 到 相应 的 位 中 。 因 此 整个 过 程 由 两 个 主要 步 又 组 成 。 在 分 配 步 
障 中 ， 每 篇 文档 被 分 配 到 与 类 中 心 最 为 接近 的 簇 中 。 在 更 新 步骤 中 ， 类 中 心 根 据 新 分 配 到 这 
个 向 中 的 文档 进行 调整 。 

每 篇 文档 d 都 用 一 个 权重 向 量 d, ER, WA 

d, = (Wj Wj ett» Wj) 

其 中 wy 表示 索引 项 A, 在 文档 d; 中 所 占 的 权重 ,上 是 词典 的 大 小 (可 以 参考 3. 2.6 节 对 向 
量 模 型 的 详细 介绍 )。K 均值 聚 类 按 以 下 过 程 进行 。 

D K 均值 聚 类 一 一 批 处 理 模式 

D 初始 化 步骤 。 在 文档 集中 随机 选择 K 篇 文档 ， 将 每 篇 文档 都 分 配 到 不 同 的 答 中 ， 而 
这 些 文档 就 作为 初始 的 类 中 心 。 举 例 来 说 ， 如 果 d; 是 初始 选中 的 某 篇 文档 ,c* 是 其 所 属 的 
E. 2, 为 相应 的 类 中 心 ， 则 有 

区 二 

D JPR. H N 篇 文档 中 的 每 篇 都 分 配 到 与 类 中 心 最 为 接近 的 簇 中 ， 即 把 文档 分 配 
到 与 其 距离 最 短 的 徐 中 。 这 里 的 距离 (distance) 表示 为 文档 与 类 中 心 相 似 度 的 倒数 ， 因 此 
最 短 距 离 和 最 大 相似 度 是 等 价 的 。 对 于 相似 度 计算 ， 正 如 3. 2. 6 节 所 讨论 的 ， 可 以 使 用 向 量 
模型 的 余弦 公式 ， 即 


sim (dj scp) 一 ao 
la,1x | a; | 
WMR cn 是 与 4d; HARKAUE WR, BARI a; PAAR, 中 。 
3) 更 新 步 最。 根据 表示 文档 的 向 量 ， 重 新 计算 (REHE) PTER PD. $ 
size (cp) Bc, 中 所 包含 的 文档 数量 。 那 么 ， 相 应 的 类 中 心 A 可 以 按 以 下 的 形式 重新 计算 : 
T, = En d; 
4) 最 终 步 最。 重复 步骤 2 和 步骤 3 直到 类 中 心 不 再 发 生 改 变 。 
K 均值 算法 的 第 2 个 版 本 是 以 在 线 (online) 形式 操作 的 [1532]， 即 类 中 心 在 每 个 文 
档 进 行 划 分 后 都 进行 重新 计算 。 它 的 操作 形式 如 下 。 
(2) K 均值 聚 类 一 一 在 线 模式 
D 初始 化 步 梳 。 在 文档 集中 随机 选择 K 篇 文档 并 以 这 些 文档 作为 初始 的 类 中 心 。 
2) 分 配 步 骤 。 对 于 每 篇 文档 d 重复 以 下 过 程 
。 将 文档 必 分 配 到 与 类 中 心 最 为 接近 的 艇 中 。 
。 重新 计算 这 个 的 类 中 心 。 
3) 最 终 步 骤 。 重 复 步 又 2 直到 类 中 心 不 再 发 生 改 变 。 
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在 参考 文献 [1532] 中 ， 作 者 提出 在 一 般 文本 集 上 ， 在 线形 式 的 均值 算法 比 批 处 理 
形式 的 K 均值 算法 获得 更 好 的 结果 。 

K 均值 聚 类 可 能 在 一 些 情形 下 工作 得 很 好 ， 但 在 另 一 些 情况 下 却 不 能 取得 理想 的 结果 。 
如 何 选择 能 的 数目 K ， 对 于 算法 来 说 是 至 关 重 要 的 一 个 步骤 。 另 外 ， 受 随机 选择 的 初始 类 
中 心 点 的 影响 ， 多 次 运行 这 一 算法 可 能 会 得 到 不 同 的 聚 类 结果 。 

2. 二 分 K 均值 算法 

这 一 算法 构建 了 一 个 层次 化 的 聚 类 结构 ， 每 一 次 都 把 某 个 簇 分 割 成 两 个 徐 。 而 这 一 过 程 
是 通过 反复 应 用 天 均值 方法 (K 二 2) 完成 的 。 

二 分 K 均值 算法 的 步骤 

1) 初始 化 步骤 。 将 所 有 文档 分 配 到 间 一 个 艇 。 

2) 分 割 步骤 。 对 于 最 大 的 一 个 徐 ， 应 用 K 均值 算法 (K=2). 

D 选择 步 梳 。 如 果 满 足 诸如 “没有 任何 簇 比 某 个 给 定 的 阔 值 要 大 ”这 样 的 终止 条 件 时 ， 
算法 停止 执行 ; 否则， 选择 文档 数目 最 大 的 簇 应 用 步骤 2) 。 

K 均值 算法 还 有 其 他 变 体 形式 ， 比 如 期 望 最 大 化 算法 (Expectation Maximization, 
EM) 。 其 主要 的 思想 是 对 聚 类 结果 使 用 基于 概率 的 分 配 ， 而 不 是 确定 性 的 。 这 些 聚 类 算法 
已 经 超出 了 本 章 的 范围 ， 有 兴趣 的 读者 可 以 参考 文献 [817] 。 

3. 层次 式 凝 聚 聚 类 

相对 于 天 均值 算法 将 集合 划分 成 天 个 徐 ， 层 次 聚 类 方法 构建 了 层次 化 的 聚 类 结构 。 这 
类 方法 要 么 将 大 的 复分解 成 小 的 徐 ， 要 么 将 预先 定义 的 复合 并 成 大 的 复 1817]j。 一 般 的 文档 
EKA ER) 聚 类 算法 可 以 描述 为 以 下 的 形式 ， 

层次 聚 类 

D 步骤 1。 以 一 个 NN 篇 文档 的 集合 和 一 个 N，N 的 相似 矩阵 (或 距离 矩阵 〉 为 输入 。 
这 个 矩阵 中 的 数据 项 可 以 是 如 向 量 模型 的 余弦 函数 值 一 类 的 结果 。 

2) 步骤 2。 把 每 个 文档 都 分 配 到 不 同 的 簇 中 ， 每 个 簇 包含 一 篇 文档 ， 这 样 就 产生 了 N 
个 徐 。 这 个 簇 就 代表 了 树 中 的 一 个 叶子 。 任 意 两 个 徐 的 相似 度 (或 者 距离 》 就 是 其 包含 文档 
的 相似 度 (或 者 距离 )。 

3) 步骤 3。 找 出 最 为 相似 (或 者 最 接近 的 ) 的 一 对 艇 ， 并 把 它们 合并 为 一 个 簇 ， 同 时 
艇 的 数目 减 1。 这 个 新 秘 可 以 用 树 中 比 原 有 艇 高 一 层次 的 结 点 来 表示 ， 同 时 作为 原 有 复 结 点 
的 父 结 点 。 

4) 步骤 4。 利 用 一 个 定义 在 文档 集 上 的 函数 ， 重 新 计算 新 徐 和 其 他 铸 的 相似 度 (距离 )。 

D 步骤 5。 重 复 步 骤 3 和 步骤 4， 直 到 所 有 文档 都 被 合并 到 一 个 徐 中 ， 其 大 小 为 N。 中 
间 的 聚 类 结果 以 及 初始 的 单 文档 艇 共同 组 成 一 棵 树 ， 即 层次 化 的 聚 类 结果 。 

步骤 4 需要 计算 两 个 于 的 相似 度 〈 或 距离 )。 计 算 答 的 相似 度 〈 或 者 距离 ) 有 三 种 不 同 
的 方法 ， 分 别 为 单 连通 (single-link)、 全 连通 (complete-link) 和 平均 连通 (average-link)。 

。 单 连 通 算法 。 徐 之 间 的 距离 定义 为 分 别 属于 不 同 徐 的 任意 两 篇 文档 之 间距 离 的 最 小 

值 (或 相似 度 的 最 大 值 )。 
。 全 连通 算法 。 徐 之 间 的 距离 定义 为 分 别 属 于 不 同 徐 的 任意 两 篇 文档 之 间距 离 的 最 大 
值 (或 相似 度 的 最 小 值 )。 

。 平均 连通 算法 。 筷 之 间 的 距离 定义 为 分 别 属于 不 同和 包 的 任意 两 篇 文档 之 间距 离 的 平 

均值 。 
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有 一 类 称 为 基于 密度 的 聚 类 方法 ， 如 DB-SCAN[537]， 其 方法 除了 考 虚 距 离 因 素 之 外 ， 
还 会 考虑 文档 空间 中 邻近 区 域 (可 以 是 任意 形状 的 ) 内 邻居 点 的 个 数 。 对 于 这 类 方法 的 进 一 
步 讨论 已 经 超出 本 章 的 范围 。 


8. 3.2 朴素 文本 分 类 
另 一 种 形式 的 无 监督 分 类 不 需要 依靠 训练 样本 的 信息 来 定义 类 别 ， 具 体 如 下 所 示 。 
朴素 分 类 ”给 定 文 档 集 刀 与 类 别 集合 C 一 {clcz，…cr) ， 类 别 集合 包含 了 工 个 

类 别 与 相应 的 标签 。 在 没有 训练 数据 的 情况 下 ,使 用 一 种 方法 可 以 自动 将 集合 中 的 

文档 关联 到 一 个 或 者 多 个 类 别 C。 这 种 方法 也 常常 称 为 分 类 器 。 

由 于 类 别 标 签 是 可 用 的 ， 因 此 一 种 简单 的 分 类 算法 实现 是 直接 匹配 文档 的 索引 项 与 类 别 
标签 。 为 了 提高 分 类 算法 的 覆盖 率 ， 我 们 可 以 对 每 个 类 别 定 义 其 替代 标签 。 这 种 标签 通常 称 
为 同义词 〈synonym)， 尽 管 它 们 可 能 并 不 保持 语法 上 的 同 义 关 系 。 通 过 我 们 即将 讨论 的 
TF-IDF 权重 以 及 在 向 量 模型 中 余弦 公式 的 应 用 ， 可 以 量化 部 分 匹配 。 

依靠 直接 匹配 的 文本 分 类 

D 步骤 1。 以 文档 集 D 与 类 别 集合 C = (cc cc) 为 输入 ， 类 别 集合 包含 了 工 个 类 
别 与 相应 的 标签 。 

2) 步 双 2。 将 文档 和 类 别 表示 成 向 量 模 型 中 的 索引 项 权重 向 量 ， 从 而 文档 d; 表示 为 向 
Bd,» 类别 c 表示 为 向 量 已 。 类 别 向 量 是 通过 组 成 类 别 标签 的 索引 项 构建 的 。 

3 步骤 3。 对 于 每 一 篇 文档 必 ED, 

。 检索 出 类 别 cv E C ， 其 标签 与 文档 d, 中 的 索引 项 匹配 。 

。 对 于 每 对 [4d;,c,]」] ， 通 过 以 下 公式 计算 其 基于 向 量 模型 的 排序 
d, ee, 

ld,|x 12, 

。 将 文档 a 与 具有 最 高 sim (dj ,cs) 值 的 类 别 c 关联 。 

为 了 改善 结果 ,文档 向 量 和 类 别 向 量 可 以 用 所 有 索引 项 的 一 个 子 集 表示 为 特征 向 量 的 形 
式 ， 具 体 可 以 查看 8. 5 节 。 

尽管 非常 简单 ， 但 朴素 文本 分 类 对 于 集中 于 某 个 特定 领域 知识 的 垂直 文本 集 还 是 能 产生 
良好 的 效果 [1032，1351]。 当 有 明确 的 分 类 体系 ， 即 类 别 可 以 按 特 化 / 泛 化 关系 进行 层次 化 
组 织 时 ， 这 一 结果 特别 明显 。 然 而 ， 对 于 一 般 的 文档 集 ， 由 于 匹配 文本 索引 项 与 类 别 标签 的 
方法 可 能 有 很 大 的 局 限 性 ， 因 此 朴素 文本 分 类 会 产生 糟糕 的 结果 。 在 一 般 情况 下 ， 为 了 提高 
分 类 的 效果 ， 我 们 有 必要 采用 监督 算法 。 在 8.4 节 将 进行 讨论 。 


8.4 监督 算法 


通过 增加 预先 由 人 工分 类 的 样本 文档 来 训练 〈 或 微调 ) 分 类 器 ， 文 本 分 类 问题 可 以 通过 
更 加 精细 的 方法 进行 处 理 。 
1. 分 类 器 训练 
在 应 用 于 大 规模 文档 集 之 前 分 类 器 通常 需要 进行 精细 的 调整 ， 而 这 种 调整 是 基于 训练 集 
(training set) 的 ， 训 练 集 的 定义 如 下 。 
训练 集 SLD CD 是 文档 集 的 子 集 ， 训 练 集 泗 数 了 :D, XC 一 40,1} ， 根据 
专家 的 判断 ， 给 每 对 [dj; ,cpj 赋予 一 个 0 或 1 HME, 其 中 4d; ECD, EC. 


sim Cd, 9Cp) 
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训练 集 函 数 7 用 来 对 分 类 器 进行 精细 的 调整 ， 提 高 分 类 函数 下 :D XC 一 (0,1) 的 精度 ， 
如 图 8-4 所 示 。 最 终 得 到 的 分 类 函数 天 应当 具 有 一 定 的 泛 化 特性 ， 可 以 用 来 预测 那些 未 知 的 
新 文档 。 






















分 类 器 训练 


人 指定 的 分 类 


图 8-4 ”分 类 器 的 训练 步骤 


2. 分 类 器 评价 

为 了 对 分 类 器 进行 评价 ， 我 们 预先 选择 一 组 类 别 已 知 的 文档 一 一 称 为 测试 集 (test 
data)。 与 训练 集 相同 ， 测 试 集中 文档 所 属 的 类 别 是 由 专家 进行 判断 的 。 而 且 ， 测 试 集 与 训 
练 集 应 当 是 不 相交 的 ， 从 而 保证 最 终 的 评价 是 基于 未 知 的 新 文档 。 

将 测试 集 用 于 分 类 器 的 评价 ， 分 为 两 个 步骤 : 1) 使 用 分 类 器 将 测试 集中 的 文档 进行 分 
类 ; 2) 将 分 类 器 赋予 的 类 别 与 专家 标 出 的 类 别 进行 比较 。 整 个 过 程 如 图 8-5 所 示 。 给 定 测 
试 集中 的 文档 后 ， 我 们 首先 将 其 进行 索引 ， 得 到 合适 的 文档 表示 。 一 种 可 能 的 表示 方式 是 使 
用 文档 的 全 文 视图 (ull text view)， 即 文档 d; 是 由 其 所 有 索引 项 所 组 成 的 集合 来 表示 的 。 
另 一 种 表示 方式 称 为 部 分 文本 视图 (partial text view)， 通 过 词 干 提取 和 禁用 词 移 除 等 方式 ， 
文档 d; 可 以 由 其 所 有 索引 项 的 一 个 子 集 来 表示 。 无 论 哪 种 表示 方式 ， 全 文 或 者 部 分 ， 都 应 
该 给 每 个 索引 项 包含 类 似 TF-IDF 的 权重 ， 就 像 我 们 在 3. 2. 4 节 讨 论 的 那样 。 

为 了 达到 分 类 目的 ， 文 档 表 示 中 的 每 一 个 索引 项 都 被 视 做 一 个 独立 的 变量 ， 我 们 称 之 为 
特征 (feature) 。 这 意味 着 文档 表示 的 大 小 可 能 达到 文档 本 身 大 小 的 级 别 ， 也 就 可 能 导致 特 
征 空间 维度 会 变 得 非常 庞大 。 对 于 高 维 的 特征 空间 ， 更 复杂 的 方法 就 难以 使 用 ， 因 为 这 会 导 
致 计算 复杂 度 变 得 非常 高 。 为 了 缓解 这 一 问题 ， 可 以 选择 索引 项 的 一 个 子 集 来 表示 文档 。 这 
一 过 程 称 为 特征 选择 (feature selection)， 我 们 将 在 8. 5 节 讨 论 。 这 个 过 程 可 以 将 文档 表示 
约 化 为 特征 向 量 (feature vector) ， 然 后 再 提交 给 分 类 器 。 

评价 分 类 器 的 最 后 一 步 是 比较 分 类 器 产生 的 结果 与 专家 产生 的 结果 。 通 常 由 专家 提供 的 
结果 不 会 完全 等 同 于 自动 分 类 的 结果 。 尽 管 如 此 ， 自 动产 生 的 结果 与 专家 提供 的 结果 一 致 率 
越 高 ， 分 类 器 的 效果 也 就 越 好 。 我 们 将 在 8. 6 节 具 体 讨论 如 何 量 化 这 种 效果 。 
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测试 集 文档 的 特征 向 量 Pe 





有 效 性 评价 

















图 8-5 分 类 过 程 以 及 监督 学 习 分 类 器 的 评价 


需要 注意 的 是 分 类 器 的 评价 需要 将 产生 的 结果 与 人 工分 类 产生 的 结果 进行 比较 。 然 而 ， 
人 们 常常 在 一 篇 给 定 文档 的 最 佳 分 类 问题 上 产生 分 歧 ， 即 人 工分 类 由 主观 因素 主导 的 。 举 例 
来 说 ， 考 虑 一 篇 文档 讨论 了 在 18 世纪 下 半 叶 ， 瓦 特 James Watt) 发 明 的 蒸汽 机 对 于 当时 
经 济 的 影响 。 有 些 人 可 能 会 将 这 篇 文档 分 类 到 “机 械 工 程 ” 或 者 “蒸汽 机 ”的 类 别 当 中 ， 而 
其 他 人 可 能 将 其 分 类 到 “18 世纪 经 济 ” 或 者 “工业 革命 ”的 类 别 中 。 也 有 可 能 把 这 篇 文档 
同时 分 类 到 所 有 以 上 的 类 别 中 。 这 也 说 明文 本 分 类 是 一 个 受 主观 解释 影响 的 问题 ， 文 本 分 类 
器 能 达到 的 最 好 结果 是 近似 人 工 的 分 类 过 程 。 

3. 文本 分 类 

分 类 器 在 经 过 了 训练 和 验证 后 ， 就 可 以 用 于 对 未 知 的 新 文档 进行 分 类 。 这 可 以 按 图 8-5 
所 示 的 步骤 进行 ， 只 是 不 包括 与 人 类 产生 的 结果 进行 比较 的 最 后 一 步 。 当 然 ， 在 这 种 情况 
下 ， 作 为 输入 的 文档 应 当 不 包含 在 测试 集中 。 如 果 分 类 器 工作 正常 的 话 ， 我 们 希望 可 以 有 效 
地 将 新 文档 分 类 到 正确 的 类 别 中 ， 即 大 部 分 的 类 别 预 测 应 当 是 正确 的 。 

接 下 来 ， 我 们 将 讨论 如 图 8-2 所 示 的 文本 分 类 监督 算法 。 我 们 并 不 试图 覆盖 文献 中 的 所 
有 分 类 算法 ， 而 只 是 覆盖 那些 有 代表 性 的 方法 ， 其 中 许多 方法 都 可 以 使 分 类 器 达到 最 好 的 性 
能 表现 。 对 于 每 个 算法 ， 我 们 会 介绍 其 使 用 的 基本 方法 作为 基础 。 我 们 也 会 讨论 如 何 改变 方 
法 使 其 能 够 用 于 文本 分 类 的 问题 ， 同 时 在 适当 的 时 候 提供 一 些 应 用 的 例子 。 


8. 4.1 决策 树 


决策 树 (Decision Tree, DT) 属于 监督 分 类 方法 ， 使 用 训练 集 从 而 将 分 类 规则 组 织 成 
一 棵 树 中 的 路 径 。 这 些 树 的 路 径 可 以 用 来 对 训练 集 以 外 的 文档 进行 分 类 。 这 种 方法 的 一 个 优 
点 在 于 树 中 的 规则 更 符合 人 类 的 理解 方式 ， 而 不 像 其 他 方法 ， 比 如 朴素 贝 叶 斯 (Naive 
Bayes) 或 者 支持 向 量 机 (Support Vector Machines)。 这 是 因为 决策 树 提供 了 显 式 的 数据 结 
构 〈 数 据 路 径 树 ) 可 以 使 得 分 类 过 程 的 结果 更 容易 被 理解 。 
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1. 基本 技术 

在 如 表 8-1 所 示 的 小 型 关系 数据 库 中 ， 其 模式 是 由 Id, Play, Outlook, Temperature, 
Humidity 和 Windy 等 属性 组 成 的 。 每 个 元 组 都 是 由 像 “Id 二 5” 和 “Outlook 二 rainy” 一 类 
的 属性 值 组 成 的 。 


表 8-1 训练 与 测试 实例 










Outlook 





Temperature Humidity 





rainy normal false 








rainy cool normal 
high 
high 


true 
















overcast false 














normal 





训练 集 





normal 





overcast 





sunny true 











sunny 


该 数据 库 的 决策 树 构建 了 一 个 数据 结构 ， 可 以 预测 某 个 给 定 属性 的 值 。 举 例 来 说 ， 
图 8-6 satiate 《来自 参 考 文献 [1312]) 可 以 在 给 定 Outlook, Temperature 和 Windy 等 
属性 的 条 件 下 ， 预 测 属性 Play 的 结果 。 在 决策 树 中 ， 内 部 结 点 〈 非 叶子 ) 与 属性 名 相关 联 
而 边 则 与 属性 值 相 关联 。 





8-6 由 表 8-1 的 训练 集 所 导出 的 决策 树 


当 决 策 树 需要 对 一 个 新 的 实例 〈 如 表 8-1 中 的 元 组 11) 进行 分 类 时 ， 基 于 该 实例 的 属性 
值 对 这 棵 树 进行 递归 遍历 ， 从 而 决定 属性 “Play” 最 为 合适 的 属性 值 。 在 这 个 例子 中 ， 根据 
规则 路 径 (outlook = sunny) A (Humidity = high) ， 结 果 最 终 为 “not to play”. 

需要 注意 的 是 ， 我 们 的 预测 都 是 基于 样本 数据 库 中 已 知 的 实例 。 如 果 一 个 新 的 实例 与 数 
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据 库 中 原本 包含 的 隐 式 规则 不 符 ， 那 么 将 会 导致 预测 错误 。 对 于 决策 树 的 构建 来 说 ， 样 本 数 
据 库 就 是 其 训练 集 。 具 体 方法 采用 了 分 割 的 过 程 ， 如 下 所 示 。 

2. 分 割 过 程 

给 定 训练 集 (数据 库 )， 决 策 树 模型 可 以 通过 递归 分 割 策略 来 构建 ， 具体 过 程 如 下 : B 
设 目 标 是 构建 能 够 预测 属性 Play 值 的 决策 树 。 第 一 步 我 们 选择 除 Play 以 外 的 某 个 属性 ， 以 
它 为 决策 树 的 根 ， 相 应 的 属性 值 就 用 来 将 数据 库 的 元 组 分 割 成 若干 个 子 集 。 对 于 每 一 个 元 组 
子 集 ， 再 选择 一 个 属性 进行 分 割 ， 然 后 不 断 重复 这 一 过 程 ， 直 到 每 个 子 集中 的 元 组 都 只 包含 
相同 的 Play 属性 值 。 

图 8-7 按 步骤 显示 了 分 割 过程 。 第 一 个 被 选中 的 分 割 属性 是 Outlook， 其 属性 值 将 元 组 
分 割 成 3 组 ; {(4，6，8，10)、{1，2，5，7}、!3，9)。 对 于 第 三 组 来 说 ， 所 有 元 组 都 有 相 
同 的 Play 属性 值 “yes”。 这 也 就 意味 着 不 需要 进一步 分 割 了 。 根据 训练 数据 ， 当 
“Outlook 二 overcast” 时 ， 有 “Play 二 yes”。 其 他 两 个 元 组 子 集 需 要 进一步 分 割 。 对 于 第 一 
个 元 组 子 集 ， 选 择 用 来 分 割 的 属性 是 “Humidity”。 对 于 第 二 个 元 组 子 集 ， 选 择 用 来 分 割 的 
属性 是 “Windy”。 在 第 三 次 分 割 之 后 ， 针 对 样本 数据 库 的 决策 树 就 构建 完毕 了 。 


ook 





sunny overcast 





rainy 
{4,6,8, 10} {1,2,5,7} {3,9} 












{1,5,7} 





{4,10} 





{6,8} {2} 





图 8-7 构建 表 8-1 中 样本 决策 树 的 分 割 过 程 


需要 注意 的 是 ,分割 过 程 很 大 程度 上 受到 用 来 分 割 的 属性 顺序 的 影响 。 由 于 顺序 不 
同 ， 树 可 能 会 变 得 不 平衡 ， 即 从 根 到 叶子 的 不 同 路 径 可 能 差别 很 大 。 这 是 我 们 在 设计 分 
割 策略 时 面临 的 主要 挑战 。 通 常平 衡 或 者 近似 平衡 的 树 在 预测 属性 值 时 有 更 好 的 效果 ， 
同时 也 更 为 高 效 地 完成 各 种 操作 。 因 此 ， 一 种 普遍 的 经 验方 法 是 选择 那些 能 够 减少 根 到 
所 有 叶子 平均 路 径 长 度 的 属性 。 对 于 图 8-6 中 的 决策 树 来 说 ， 根 到 叶子 的 最 长 距离 是 2， 
最 短 距离 是 1 。 
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3. 文档 分 类 

对 于 文档 分 类 ， 树 中 的 每 一 个 中 间 结 点 都 关联 到 一 个 索引 项 ， 即 每 个 索引 项 都 认为 是 与 
文档 关联 的 独立 变量 。 树 中 的 每 个 叶子 都 关联 到 一 个 文档 类 别 ， 而 每 条 边 都 表示 某 个 索引 项 
出 现 与 否 的 二 值 预测 。 

a) 分 割 过 程 

用 于 文档 分 类 的 决策 树 构建 会 采用 与 之 前 类 似 的 分 割 过 程 。 下 面 ， 我 们 形式 化 地 明确 一 
些 基本 概念 。 

定义 V 为 结 点 集合 。 树 械 二 (V,E,r) 是 V 上 的 有 向 无 环 图 ， RPECVXV 为 边 集 
,rEVAT MR, BEN.) ,vi 为 父 结 点 ， 而 v0; 为 子 结 点 。 根 是 唯一 没有 父 结 点 的 
点 。 结 点 vi 称 为 叶子 ， 当 且 仅 当 其 没有 子 结 点 。 我 们 指定 1 为 所 有 中 间 结 点 〈( 非 叶子 ) 
Ze, RIAM PAES 〈 即 叶子 ) 的 集合 。 

给 定 树 TI ， 我 们 可 以 将 训练 集中 的 文档 与 类 别 的 信息 关联 到 树 上 。 依 靠 这 样 的 方法 ， 
我 们 能 够 构建 用 于 文档 分 类 的 决策 树 ， 具 体 如 下 所 示 。 

定义 EKE (kokt) 为 训练 集 D. 所 有 索引 项 的 集合 ， 而 C 是 所 有 类 别 的 集合 ， 如 
前 所 示 。 而 且 ， 设 局 是 基于 索引 项 的 逻辑 谓词 的 集合 。 决 策 树 DT 二 (V,E;r;li,lL ,LE) 为 一 
个 六 元 组 ， 其 中 (V;E;r) -RIRA rét; li:1-> K 是 将 树 上 的 中 间 结 点 关联 到 一 个 或 者 
多 个 索引 项 上 的 函数 ; li :1 一 C 是 将 非 中 间 结 点 (叶子 结 点 ) 关联 到 某 个 类 别 cs EE C 上 的 函 
数 ; le:F-> 了 是 将 树 的 边关 联 到 了 中 的 逻辑 谓词 的 函数 。 

给 定 由 文档 及 其 相应 所 属 类 别 组 成 的 训练 集 ， 决 策 树 模型 可 以 按照 类 似 于 图 8-7 所 示 的 
方法 ， 通 过 递归 分 割 策略 [1140, 1446] 来 构建 。 第 一 步 将 所 有 文档 关联 到 根 结 点 。 第 二 步 
EER EH SRA ARN CAAT RE OARS. BARU. BRR Lk, nke 
Mk, 用 于 第 一 次 分 割 ， 于 是 根 结 点 中 的 文档 就 被 分 为 4 个 子 集 ， 每 个 子 集 都 关联 到 树 中 的 
一 个 新 的 子 结 点 ， 在 与 子 结 点 相连 的 边 上 标记 相应 索引 项 的 谓词 ， 如 Pa) 。 为 了 满足 该 
谓词 ， 某 篇 文档 dj 需要 匹配 其 条 件 。 譬 如， 谓词 可 以 由 两 个 待 满足 条 件 组 成 : 1) MA 需 
包含 索引 项 有 ; D 关联 到 索引 项 -文档 对 Lk。 ,qj] 的 权重 w 应 当 超 过 某 个 给 定 的 阅 值 。 这 
可 以 表示 为 : 


合 
结 
的 


P(k,) = contains Cka sd;) N Waj ST 

其 中 rz 是 满足 该 谓词 的 最 小 阐 值 。 权 重 可 以 通过 3. 2.6 节 中 讨论 的 经 典 向 量 模型 中 的 
TF-IDF 公式 计算 得 到 。 文 档 a; 满足 谓词 PC&.) ， 当 且 仅 当 其 包含 索引 项 ke H5 [Cka 
d] 关联 的 权重 超过 r 。 需 要 注意 的 是 ， 阔 值 * 可 能 随 着 索引 项 的 变化 而 变化 〈 即 不 一 
定 在 所 有 索引 项 中 都 取 相 同 的 常数 值 ) 。 接 下 来 ， 每 个 文档 子 集 都 选择 新 的 分 割 项 ， 以 
上 的 过 程 不 断 重 复 递 归 进 行 。 在 每 个 分 支 ， 递 归 过 程 在 子 集 的 所 有 文档 都 归属 于 同一 
个 类 别 时 终止 。 

图 8-8 显示 了 一 个 例子 。 在 第 一 步 ， 选 中 索引 项 & kerk 和 kk， ， 并 将 集合 分 为 4 个 文 
档 子 集 。 子 集 {ds ,dio} 和 (ds ,qds} 仅 包 含 分 别 属于 类 别 C 和 类 别 Cj 的 文档 ， 因 此 对 于 这 两 
个 分 支 不 需要 进一步 地 分 割 。 接 下 来 ， 选 择 索引 项 kakek 和 Rs 用 来 进行 分 割 并 重复 上 
面 的 过 程 。 在 分 割 过 程 中 ， 将 中 间 结 点 插 人 决策 树 。 我 们 对 这 些 结 点 进行 简单 的 编号 ， 标 记 


并 无 任何 特殊 含义 。 我 们 观察 到 在 一 个 大 的 文档 集中 ， 决 策 树 的 规模 也 会 变 得 庞大 而 构建 过 


程 也 会 耗费 更 多 的 时 间 。 
选择 分 割 项 的 过 程 是 最 为 重要 的 。 尽 管 可 以 采用 不 同 的 方法 ， 但 是 互信 息 OD 和 信息 
增益 (参考 8. 5 节 ) 等 是 最 为 常用 的 方法 。 选 择 能 够 带 来 高 信息 增益 的 索引 项 可 以 增加 某 个 
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给 定 层次 的 分 支 数量 ， 从 而 减少 每 个 子 集中 的 文档 数 。 这 样 可 以 产生 规模 更 小 、 结 构 更 简单 


的 决策 树 。 
Pk) PCk,) 
PJP RKA 


{d,,d3,d,,d,} {ddz} {ddio} {d; ds} 








4 














88 根据 文档 集 构建 决策 树 的 分 割 过 程 


(2) 分 类 新 文档 

为 了 对 一 个 新 文档 进行 分 类 ， 我 们 通过 对 文本 的 索引 项 和 树 中 边 所 指 代 的 索引 项 进行 匹 
配 的 方式 ， 对 决策 树 进行 遍历 。 在 遍历 到 树 的 某 个 层次 时 ， 如 果 文 档 满 足 边 上 的 谓词 ， 那 么 
它 就 包含 在 其 相关 联 的 那个 子 集中 。 需 要 注意 的 是 ， 同 一 篇 文档 可 能 会 关联 到 两 个 或 者 多 个 
文档 子 集中 。 递 归 遍 历 的 过 程 不 断 重复 ， 直 到 达到 某 个 叶子 结 点 。 与 这 个 叶子 结 点 相关 联 的 
类 别 就 是 最 终 的 文档 类 别 。 

决策 树 存 在 一 些 固 有 的 问题 ， 如 缺失 值 或 者 未 知 值 [595]。 这 一 类 现象 出 现在 待 
分 类 文档 不 包含 决策 树 中 分 割 项 的 时 候 。 这 种 情况 下 ， 我 们 不 容易 判断 遍历 过 程 应 该 
选择 树 的 哪 一 个 分 支 。 解 决 这 一 问题 的 一 种 方法 是 延迟 树 的 构造 ， 直 到 待 分 类 的 新 文 
档 可 用 为 止 。 然 后 ， 树 只 依靠 这 篇 文档 本 身 具 有 的 特征 来 进行 构造 ， 从 而 避免 了 上 面 
的 问题 。 这 种 “延迟 ”技术 同样 被 接 下 来 要 介绍 的 上 近邻 分 类 器 (k-Nearest Neighbor, 
ANN) 所 使 用 。 


8.4.2 k 近邻 分 类 器 

k 近邻 分 类 器 (k-Nearest Neighbor, ANN) 是 一 种 面向 需求 的 (或 者 延迟 的 ) 分 类 器 。 
延迟 分 类 器 并 不 预先 构造 一 个 分 类 模型 。 相 反 ， 分 类 过 程 只 在 新 文档 d; 输入 分 类 器 时 才 进 
行 。 分 类 的 决策 是 基于 文档 d We 个“ 最近” 的 邻居 所 属 的 类 别 来 判断 的 ， 这 些 邻 居 通 过 
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在 预先 定义 的 度量 空间 上 的 距离 函数 来 计算 。 具 体 过 程 如 下 : D 确定 文档 d; 在 给 定 训练 集 
中 最 近 的 & 个 邻居 ，2) 通过 最 近邻 的 类 别 来 确定 文档 d; 的 类 别 。 

延迟 算法 的 一 大 优点 在 于 其 可 以 关注 待 分 类 文档 d; 的 特定 特征 ， 而 不 是 像 决 策 树 那样 
的 全 局 分 类 模型 ， 后 者 可 能 会 包含 许多 对 d; 分 类 并 不 重要 的 特征 。 

1. 基本 技术 

图 8-9 显示 了 一 个 4 近邻 分 类 器 的 例子 (k= 二 4)。 其 中 有 4 个 训练 文档 属于 类 别 ca 
6 个 训练 文档 属于 类 别 c。。 待 分 类 的 文档 d MRTA see 
色 。 在 虚线 圆 之 内 的 是 与 文档 必 最 近 的 4 篇 文档 ER 
是 通过 近似 的 度量 函数 计算 出 来 的 ， 如 非 归 一 化 向 量 空 
间 排 序 ， 参 考 3.2.6 节 )。 在 最 近 的 4 篇 文档 当中 ， 三 
篇 属于 类 别 cy 而 一 篇 属于 类 别 c。， 于 是 我 们 将 文档 d 
分 配给 类 别 ce 。 

2. 文档 分 类 

在 近邻 算法 中 ,我们 给 每 个 文档 -类 别 对 [wa co] 
赋予 一 个 分 数 Ss ,.。， 计 算 方法 为 : 

Sa, ,cp = >) similarity(d;,d,) XT(d,,c,) 


d EN, Cd; 











(8-1) 
其 中 NiCd) 是 d 在 训练 集中 上 个 最 近邻 的 集合 , T Cd, 
co) 为 定义 在 训练 集 上 的 函数 ， 当 文档 d 属 于 类 别 c， 
时 ， 返 回 1; 否则 ， 返 回 0。 相似 度 函数 可 以 根据 向 量 模型 或 者 非 归 一 化 向 量 模型 的 余弦 公 
式 进行 计算 ， 具 体 可 参考 3. 2. 6 节 。 

分 类 新 文档 

对 每 篇 文档 4; ,分 类 函数 F Cd, ,cy) 将 其 分 配 到 分 数 Suc, 最 高 的 类 别 cp 中 。 

k 近邻 的 一 个 问题 在 于 其 性 能 。 为 了 确定 最 近 的 文档 ， 分 类 器 需要 计算 待 分 类 文档 与 所 
有 训练 文档 之 间 的 距离 。 尽 管 可 以 采用 特定 目标 的 索引 方法 [1707]， 训 免 与 训练 集中 的 所 
有 文档 都 进行 比较 ， 但 近邻 分 类 的 性 能 问题 仍然 存在 。 另 一 个 问题 在 于 如 何 选择 最 佳 的 & 
值 ， 即 寻找 能 够 最 优化 分 类 结果 的 值 。 


图 8-9 一 个 4 近邻 分 类 过 程 的 例子 


8.4.3 Rocchio 分 类 器 


在 5. 3 节 中 讨论 的 Rocchio 相关 反馈 过 程 能 够 基于 用 户 反馈 修改 原始 的 用 户 查 询 。 其 主 
要 目的 在 于 产生 一 个 能 够 更 好 地 逼近 用 户 兴趣 的 新 查询 。HaullL797] 已 经 把 Rocchio 公式 用 
于 文本 分 类 ， 正 如 我 们 下 面 要 讨论 的 方式 。 

1. 基本 技术 

Rocchio 相关 反馈 过 程 基于 经 典 的 向 量 模型 ， 因 此 每 篇 文档 d 都 可 以 表示 为 索引 项 权重 
向 量 d,o ÉRY: 


= 
d; = (zol yy 9 We,59°°* sW) 


其 中 Wi; 表示 索引 项 ki 在 文档 d; 中 的 权重 ,，i 是 词典 的 大 小 (可 以 参考 3.2.3 节 的 详细 
介绍 ) 。 
Rocchio 在 文本 分 类 上 的 应 用 是 基于 将 训练 集 解 释 为 反馈 信息 。 在 这 种 情况 下 ， 对 于 属 
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于 某 个 给 定 类 别 c 的 训练 文档 中 的 索引 项 ， 我 们 认为 其 提供 了 正 反馈 ;对 于 不 属于 类 别 c 


的 训练 文档 中 的 索引 项 ， 我 们 认为 其 提供 了 负 反 馈 〈 见 图 8-10)。 所 有 的 反馈 信息 ， 即 所 有 
训练 数据 提供 的 类 别 成 员 信 息 ， 能 够 概括 为 索引 项 空间 的 中 心 点 。 中 心 点 计算 出 来 之 后 ， 新 
的 测试 文档 可 以 通过 与 中 心 点 的 距离 进行 分 类 。 


图 8-10 Rocchio 文本 分 类 在 文档 索引 项 空间 中 的 表示 。 加 号 表示 属于 某 个 给 定 类 别 cp 的 训练 
文档 中 的 索引 项 ， 减 号 表示 不 属于 类 别 cp 的 训练 文档 中 的 索引 项 。 利 用 加 权 平 均 计 
算得 到 的 中 心 点 ， 我 们 用 浅 灰 色 的 三 角 表 示 。 如 图 所 示 ， 中 心 点 可 能 并 不 如 我 们 所 期 
望 的 那样 靠近 正面 索引 项 。 通 过 修改 正面 索引 项 和 负面 索引 项 权重 的 方式 ， 可 以 将 中 
心 点 移动 到 更 靠近 正面 索引 项 的 位 置 。 新 的 中 心 点 位 置 用 黑色 三 角 表 示 

2. 文档 分 类 

在 Rocchio 分 类 器 中 ， 类 别 Cp 由 权重 向 量 or = {Wp Wz, p" s Wp} 表示 ， 其 中 i 为 文 

档 集 中 索引 项 的 总 数 。 设 n, 为 训练 集中 类 别 c， 的 文档 总 数 , N 为 训练 集 的 文档 总 数 。 于 是 ， 
每 个 类 别 c 的 向 量 都 可 以 通过 计算 其 中 心 点 得 到 。 这 里 我 们 使 用 Rocchio 公式 (BF 5.3 
节 ) 的 一 个 改进 版 本 。 





eo ee bo TEN 2 d d Dii 
需要 注意 的 是 ， 属 于 类 别 c, 的 训练 文档 中 的 索引 项 得 到 了 乍 的 权重 ， 不 属于 类 别 c 的 训练 
文档 中 的 索引 项 得 到 了 负 的 权重 。 

式 〈8-2) 中 的 参数 8 和 7 分 别 对 在 类 别 c* 中 和 不 在 cs。 中 的 索引 项 的 相对 重要 性 进行 建 
模 ， 如 图 8-10 所 示 。 为 了 使 中 心 点 更 靠近 正面 索引 项 而 远离 负面 索引 项 , 8 通常 设置 为 比 7 
大 得 多 的 值 。 比 如 ， 在 参考 文献 [290] 中 , 8= 16 与 Y= 二 4 认为 是 标准 取 值 ， 这 一 方案 同时 
也 被 其 他 作者 L406, 837] 所 采用 。 另 一 种 替代 的 方法 是 ， 设 置 6 王 1 与 y= 王 0 ， 即 认为 只 
由 训练 集中 的 正 样本 提供 反馈 ， 如 文献 [520，838，1444] 所 述 。 

分 类 新 文档 

为 了 对 一 个 未 知 的 新 文档 d; 进行 分 类 ，Rocchio 分 类 器 根据 文档 和 类 中 心 的 距离 赋予 每 
个 文档 -类 别 对 Cd; scp] 分数 SC(dj ,c,) ， 具 体形 式 为 : 

S(d;sc,) = | Z on d, | 
在 向 量 空间 中 ， 文档 d, MHA T,» Md 属于 类 别 cs 的 可 能 性 也 就 越 高 。 因 此 ， 
文档 d 会 被 分 配 到 具有 最 高 分 数 S(dj ,cs) 的 类 别 中 去 。 

3. 基于 查询 区 域 的 Rocchio 分 类 器 

在 参考 文献 [1485] 中 ，Singhal 等 人 研究 了 Rocchio 公式 负 反 馈 的 影响 。 他 们 提出 ， 
对 于 特定 的 领域 ， 负 反 馈 可 能 会 使 类 别 中 心 点 远离 用 户 感 兴趣 的 主题 ， 如 图 8-11 所 示 。 为 
了 降低 这 种 我 们 不 希望 看 到 的 影响 ， 他 们 提出 应 当 减 少 用 于 负 反 馈 的 文档 数量 。 也 就 是 说 ， 
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他 们 认为 应 当 只 使 用 那些 在 所 有 作为 负 反 馈 的 文档 中 “最 正面 ”的 文档 ， 这 样 的 文档 我 们 称 
为 近似 正面 文档 (near-positive documents) 。 将 负 反 馈 限 制 在 近似 正面 索引 项 上 ， 可 以 确定 
一 个 能 够 更 好 地 估计 用 户 兴 趣 的 查询 区 域 。 





距离 较 远 的 负 反 馈 文 档 可 能 使 
类 中 心 偏离 那些 正 反馈 的 项 


图 8-11 并 非 所 有 文档 对 描述 一 个 给 定 类 别 c* 的 特征 都 是 有 用 的 。 即 有 些 不 属于 类 别 c 的 文档 应 当 
不 予 考虑 ， 因 为 它们 会 造成 整个 空间 的 失真 。 一 种 解决 方法 是 只 使 用 那些 “最 正面 ”的 不 属 
于 类 别 cp 的 文档 
将 “查询 区 域 ”这 一 想法 用 于 文本 分 类 ， 最 早 是 由 参考 文献 [1433] 中 提出 的 。 作 者 认 
为 应 当 按 下 面 的 方式 选择 近似 正面 文档 。 设 < 为 那些 属于 类 别 c 的 训练 文档 的 中 心 点 ， 
即 只 考虑 正面 文档 。 对 于 所 有 不 属于 类 别 cp 的 训练 文档 ， 即 负面 文档 ， 统 计 它们 与 Tp 的 
距离 。 最 后 将 那些 与 中 心 点 距离 较 小 的 作为 近似 正面 文档 。 基 于 这 个 思路 的 一 些 变 体 在 参考 
文献 £1201, 1397, 1676] 中 有 介绍 。 
基于 统计 短语 的 查询 区 域 方 法 ， 再 加 上 其 他 的 优化 ， 可 以 使 Rocchio 分 类 器 达到 与 现 有 
的 先进 方法 (如 boosting， 参 考 8. 4.6 节 ) 相同 的 性 能 ， 同 时 具有 训练 速度 更 快 的 优势 
[1433]。 因 此 ， 基 于 查询 区 域 的 Rocchio 分 类 器 在 文本 分 类 领域 是 一 个 令 人 感 兴趣 且 有 竞争 
力 的 选择 。 


8.4.4 概率 朴素 贝 叶 斯 文档 分 类 


概率 分 类 器 给 每 个 文档 -类 别 对 [qd; ,c*] 赋予 一 个 表示 该 文档 属于 某 个 类 别 的 概率 。 当 
我 们 计算 了 所 有 包含 文档 d; 的 文档 -类 别 对 的 概率 时 ， 分 类 器 就 把 具有 最 高 概率 估计 值 的 类 
IRF d. 

1. 基本 技术 

概率 分 类 器 与 3. 2. 7 节 中 讨论 的 经 典 概率 模型 类 似 。 给 定 文档 d;， 它 由 二 元 权重 w 
组 成 的 权重 文档 向 量 d, 表示 ， 赋 予 每 个 文档 -类 别 对 [di ,co] 一 个 概率 P(co | dj)» ERX 
Ad, 属于 类 别 c, 的 概率 。 如 果 对 于 全 部 类 别 的 概率 都 已 经 计算 出 来 ， 就 把 文档 分 配 到 具有 
最 高 概率 估计 值 的 类 别 当 中 。 

为 了 计算 概率 Pld) ， 概 率 分 类 器 应 用 贝 叶 斯 定理 ， 具 体形 式 如 下 : 
PC) X PG? ley) 


(8-3) 
PCd,) 


Pte, | 过) = 
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其 中 PCQ,) 为 随机 选择 一 篇 文档 而 恰好 返回 由 d, 表示 的 文档 的 概率 ，P(c,) 为 随机 选择 
一 篇 文档 而 该 文档 恰好 属于 类 别 c, 的 概率 。 上 面 这 些 概率 都 作为 归 一 化 因子 ， 而 更 重要 
的 因子 是 概率 P(d, le») ， 其 计算 需要 能 够 高 效 地 进行 简化 。 最 常见 的 简化 方法 是 假设 组 
成 文档 的 所 有 索引 项 都 是 彼此 独立 的 ， 正 如 所 有 经 典 信 息 检索 模型 中 所 假设 的 那样 〈 参 
考 第 3 章 ) 。 因 为 这 一 假设 对 真实 文档 并 不 成 立 ， 所 以 基于 这 一 假设 的 分 类 器 称 为 朴素 贝 叶 
斯 (Naive Bayes) 分 类 器 。 

2. 二 值 独立 朴素 贝 叶 斯 分 类 器 

正如 在 8. 9 节 中 所 讨论 的 ， 朴 素 贝 叶 斯 分 类 器 有 许多 变 体 ， 其 中 最 为 著名 的 基于 经 典 概 
率 模型 的 方法 (参考 3. 2.7 节 ) 。 我 们 下 面 的 讨论 基于 参考 文献 [1446]. 

定义 在 基于 经 典 概率 模型 的 朴素 贝 叶 斯 分 类 器 中 ， 文 档 才 是 由 二 值 权重 组 成 的 向 量 

303] 所 表示 的 。 每 个 维度 上 的 权重 表示 某 个 索引 项 在 文档 中 出 现 或 者 不 出 现 。 即 有 如 下 形式 : 


> 
d, = (wi,j Wz, j ott Wj) 


其 中 Wij 一 1 ， 表示 索引 项 ki ( 词 ) 在 文档 d; 中 出 现 ; GR), wj 一 0。 对 于 每 个 文档 -类 别 对 
Ld, ,Cp 9 分 类 器 赋予 它 一 个 分 数 SCdico) ? 形式 为 以 下 的 比率 : 
P(e, | d,) 
PC, | d,) 
其 中 Plc, | d,) 是 文档 d; 属于 类 别 cy HME, P, d) 是 文档 起 不 属于 类 别 cp 的 概率 。 
BR, Pld) HPT, d) 一 1。 AE d 最 后 被 分 配 到 具有 最 高 分 数 SCdi ,cp) 的 类 
别 中 。 

应 用 贝 叶 斯 定理 ， 我 们 得 到 


S(d; Cp) = 


Pd, lc») 
T PG, ley) 
为 了 估计 这 些 概率 ， 我 们 采取 了 独立 性 假设 ， 具 体 表 述 如 下 。 
独立 性 假设 ”假设 索引 项 CI) 在 文档 起 中 的 出 现 与 文档 中 的 其 他 索引 项 独 
立 。 在 这 个 假设 下 ， 我 们 有 
Ped, lep) = [[ Pek le, x [LPG le,) 
k Ed, kd, 


S(d; ,Cp) 


Pd ED) = [[ Pale, x [[ PG lz,) 
k Ed, k Ed, 


其 中 PCR \cp) . PCR Ncp) 、PCR | 已) 和 已 (及 | 已) 表示 在 属于 (ARAT) 类 别 

cs 的 文档 中 出 现 (或 不 出 现 ) 索引 项 的 概率 。 

我 们 可 以 应 用 和 经 典 概率 模型 中 的 排序 公式 (参考 3. 2.7 节 ) 相同 的 推理 方法 进行 推 
导 ， 最 终 可 以 将 分 数 SCdi ,cs*) 推导 成 以 下 形式 。 


S (dsc) ~ Dwi (log( 72E) + log(“—#)) 





Pe = PCR; |c,) 
qe 一 PCR; |c,) 
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其 中 pe 表示 第 ; 个 索引 项 是 出 自 类 别 c* 中 随机 选择 的 文档 的 概率 ,ge 表示 第 i 个 索引 项 是 
出 自 类 别 cy 以 外 随机 选择 的 文档 的 概率 。 
be Mar 的 概率 可 以 通过 训练 文档 集 D 估计 得 到 ， 例 如 可 用 以 下 的 估计 方式 ， 
1+ > Pai) 


bo = d,\d,€D, Ak, €d; _ Ni,» 
. 2+ >) Pte, |d;) 2+n, 
di ED, 
1+ > P&;\|d;) 
d ld ED MEd, 1 二 Cni — nip) 
qi 二 一 A ani 
iP 2 十 XPG, |d;) 2 十 (N —n,) 
di €D, 


其 中 概率 Ple ldi) € {0,1}, PCcldi)eE {0,1} ， 可 以 从 训练 集中 得 到 ， 变 量 n an in, 
AUN, 的 定义 参考 8. 5. 1 节 。 常 数 1 和 2 用 来 避免 当 索 引 项 没有 出 现在 类 别 中 时 ， 可 能 出 现 
的 异常 概率 波动 ， 正 如 文献 [1105] 中 所 建议 的 那样 。 

在 SCd scp) 的 计算 过 程 中 ， 只 有 那些 在 文档 d; 中 (Bw, >0) 的 索引 项 对 这 个 分 数 
有 贡献 。 因 为 权重 是 二 值 的 ， 而 且 将 索引 项 的 出 现 假设 为 是 彼此 独立 的 ， 所 以 这 一 分 类 器 通 
常 称 为 二 值 独 立 朴 素 贝 叶 斯 分 类 器 (binary independence Naive Bayes classifier), 

分 类 新 文档 

在 所 有 文档 -类 别 对 的 分 数 Sd ,cr) 都 计算 完 之 后 ， 分 类 器 将 每 个 文档 分 配 到 具有 最 高 
分 数 的 类 别 中 。 

3. 多 项 朴素 贝 叶 斯 分 类 器 

朴素 贝 叶 斯 分 类 器 假设 索引 项 的 权重 是 二 值 的 ， 即 不 考虑 项 频 。 考 虑 索引 项 的 频率 信息 
可 以 提高 结果 的 质量 ， 因 此 我 们 考虑 使 用 这 些 信息 来 改进 分 类 器 。 我 们 的 讨论 基于 参考 文献 
[1105], 

为 了 对 类 别 c, 中 的 文档 d; 进行 分 类 ， 我 们 使 用 式 〈8-3) 。 类 别 的 先 验 概率 形式 为 ， 


Y Pte, Id; 
P{c,) = 2 o N =H 
其 中 Peela; € (0,1} ,可 以 直接 从 大 小 为 N, 的 训练 集中 得 到 。 文档 的 先 验 概率 形 


KA: 


(8-4) 


L 
PCG) = >) Pried, lep) X Ples) (8-5) 
p=1 
其 中 工 为 类 别 总 数 ， 如 前 所 示 ， 而 且 
Prior Cd leo) = [[ PC le, x IL A Pehle,» 
k Ed; k €d; 


1+ Ð Peg |) 





dld, ED, Ak; €d; n; 
Peki lep) = — 4 = se 
, 2+ X Plc, |d;) 2+n, 

aED,’ 


正如 之 前 对 概率 po 的 计算 。 注 意 这 些 等 式 并 没有 考虑 项 频 ， 而 且 只 是 用 来 估计 先 验 概 率 。 
为 了 估计 最 主要 的 概率 P( 达 |c*) ， 我 们 修改 公式 的 形式 使 其 包含 项 频 ， 具 体形 式 
如 下 。 
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定义 假设 类 别 c 中 的 文档 di 是 由 一 个 随机 过 程 生成 的 ， 在 这 个 过 程 中 索引 项 的 抽取 
服从 一 个 已 知 的 分 布 。 索 引 项 的 每 次 抽取 我 们 都 认为 是 一 个 伯 努 利 试验 ， 发生 的 概率 为 
P(ki|c,) o ME, ARIA k 的 抽取 次 数 就 是 其 文档 频率 f;,; ， 即 伯 努 利 试验 需要 一 直 
重复 ， 直 到 所 有 索引 项 都 出 现在 文档 中 。 因 此 ， 文 档 中 的 索引 项 服从 多 项 分 布 ， 即 


_ | Faj : 
PCA, lep = F! x TT EPR Ie (8-6) 
7 k €d, fis! 
其 中 t 为 词典 大 小 ， 并 且 
F, = SD fii 
hed, 


注意 F 是 文档 d, 的 索引 项 数量 ， 即 文档 的 长 度 。 而 索引 项 的 概率 可 以 从 训练 集中 估计 出 
来 ， 如 以 下 形式 : 


E fP (ep ld)) 
Plk [ep = -2 (8-7) 
DDD fisP Ce Id; 
Vk, dED, 


其 中 也 是 训练 文档 集 。 而 且 , Plc, |d;) € {0.1} 可 以 直接 从 训练 集中 得 到 。 

通过 将 式 (8-4)~HK (8-7) RAR (8-3)， 分 类 器 就 能 够 计算 Pld) » 

分 类 新 文档 

多 项 朴素 贝 叶 斯 分 类 器 将 每 篇 文档 d) 根据 式 (8-3), DMB Pld 最 大 的 类 
别 中 。 . 

按照 这 样 的 方式 ， 分 类 器 考虑 了 项 频 信息 ， 因 此 可 能 在 一 般 文档 集 上 带 来 更 高 的 精度 ， 
正如 参考 文献 [1105] 中 所 介绍 的 那样 。 


8.4.5 支持 向 量 机 分 类 器 


支持 向 量 机 (Support Vector Machine, SVM) 分 类 器 是 一 种 相对 较 新 颖 的 分 类 方法 ， 
由 Vapnik[429] 提出 ， 并 由 Joachims[838] 首先 在 文本 分 类 中 使 用 。 由 于 支持 向 量 机 的 复 
杂 性 ， 在 正式 介绍 其 概念 之 前 ， 我 们 首先 阐述 其 技术 背后 的 思想 。 

1. SVM 基本 技术 一 一 直观 认识 

支持 向 量 机 (SVM) 对 两 类 分 类 问题 提供 了 一 种 向 量 空间 方法 。 所 有 的 索引 项 形成 
了 :i 维 空间 ， 而 文档 是 其 中 的 点 (或 者 向 量 )。 给 定 文档 的 向 量 表示 后 ,任务 就 转化 为 找 
到 一 个 决策 面 〈 即 超 平 面 )， 能 够 最 好 地 区 分 c。 和 ce 两 个 类 别 的 元 素 。 从 训练 数据 中 学 习 
得 到 的 超 平 面 将 空间 分 割 成 两 个 区 域 。 所 有 类 别 a 中 的 文档 在 其 中 一 个 区 域 ， 而 类 别 c 
中 的 文档 在 另 一 个 区 域 。 在 二 维 空间 中 ， 超 平面 是 一 条 直线 。 在 三 维 空间 中 ， 超 平面 是 
一 个 平面 。 在 学 习 得 到 超 平 面 后 ， 新 文档 d; 可 以 通过 计算 与 超 平面 的 相对 关系 来 进行 
分 类 。 

举例 来 说 ， 在 一 个 简单 的 二 维 例子 中 ， 其 训练 数据 点 是 线性 可 分 的 〈 即 可 以 用 一 条 直线 
进行 分 割 )， 如 图 8-12 所 示 。 在 所 有 能 够 将 文档 集 正 确 地 分 成 两 个 类 别 的 直线 中 ， 直 线 * 最 
大 化 了 到 每 个 类 别 中 的 文档 的 最 短 距 离 ， 因 此 我 们 认为 这 是 最 好 的 分 割 超 平面 。 为 了 简便 起 
见 ， 我 们 称 其 为 决策 超 平面 〈decision hyperplane). EER r 在 这 个 例子 中 是 一 个 较 差 的 
选择 ， 因 为 它 到 类 别 c。 和 类 别 cs 的 最 短 距 离 较 小 。 . 

在 图 8-12 中 ， 平 行 的 虚线 划 定 了 寻找 可 行 解 的 区 域 。 为 了 简便 起 见 ， 我 们 称 其 为 划 界 
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超 平面 集 (delimiting hyperplanes)。 恰 好 在 划 界 超 平面 上 的 文档 ， 我们 称 为 支持 向 量 
(support vector) 。 穿 过 这 个 空间 的 直线 都 能 够 被 选择 为 决策 超 平面 的 候选 。 平 行 于 划 界 超 
平面 的 直线 通常 是 最 好 的 候选 。 在 这 个 例子 中 ， 直 线 ; 将 空间 分 割 为 两 个 相同 的 部 分 ， 被 认 
为 是 最 好 的 超 平面 ， 即 决策 超 平面 。 

图 8-13 将 图 8-12 中 的 例子 显示 在 二 维 坐 标 系 当中 。 类 别 c。 中 的 文档 表示 为 方形 点 ， 类 
Be 中 的 文档 表示 为 圆 形 点 。 支 持 向 量 机 优化 问题 可 以 按 以 下 形式 表述 。 

















A 
10l, 
94 
8 
支持 向 量 7 
6 
5 
4 r: x-4=0 
eA sl 
21 | 
i s m/2 Se HET 
C; o i lgd 5678 9 10 
图 8-12 在 这 个 二 维 的 例子 中 ， 直 线 ; 最 大 化 了 图 8-13 图 8-12 中 显示 的 文档 的 图 示 。 方 形 点 表 
到 类 别 c。 和 类 别 cs 中 文档 的 最 小 距离 RŽP co 中 的 文档 ， 圆 形 点 表示 类 别 c 
(相对 于 直线 r )， 并 且 构 成 了 用 于 分 类 中 的 文档 。 支 持 向 量 为 点 (1，3)、 
新 文档 的 决策 超 平面 (3，1)、(5，5)。 直 线 r 是 一 个 合法 的 


分 割 超 平面 , 但 直线 s 才 是 最 佳 的 分 割 
| 超 平面 一 -决策 超 平面 
支持 向 量 机 优化 问题 SH. 是 能 够 将 类 别 c。 中 的 文档 与 类 别 cs 中 的 文档 分 开 

的 超 平面 。 设 m。 是 在 类 别 c。 中 的 文档 与 Hw 的 最 近 距 离 ,m, 是 在 类 别 c 中 的 文档 

与 Hw 的 最 近 距 离 ， 并 有 m tm =m., BHRm 即 是 支持 向 量 机 的 “分 类 间隔 ” 

(margin)。 决 策 超 平 面 Hw 最 大 化 了 分 类 间隔 。 

在 图 8-13 中 ， 超 平面 r+:z 一 4 二 0 将 两 个 集合 中 的 文档 分 割 开 来 ， 与 两 个 类 别 的 最 近 
文档 是 1, 3) 和 “(5，5)， 距 离 都 是 1， 因此 其 分 类 间隔 为 2。 而 超 平面 s:y 十 x 一 7 二 0 
对 应 的 分 类 间隔 是 3 V2 ， 在 这 个 例子 中 是 最 大 的 ， 因 此 它 就 是 决策 超 平面 。 在 决策 超 平 
面 确定 后 ， 新 文档 dj 可 以 通过 检查 它 与 决策 超 平面 的 相对 位 置 来 决定 应 该 分 类 到 c 还 
是 Coo 

支持 向 量 机 可 以 形式 化 地 表示 为 一 个 优化 问题 。 我 们 首先 回顾 一 下 直线 和 超 平面 在 =” 维 
空间 中 的 向 量 符号 表示 。 

2. ÆR" 中 的 直线 与 超 平面 

EM FR 为 以 O 为 原点 的 n EZ., ER 中 ， 一 般 点 Z 被 表示 为 向 量 SL, BURA: 

Z = (21 229% hy) 
RPSN) 为 实数 变量 。 我们 对 定点 采用 相似 的 表示 方法 ， 如 对 于 A、B、H、P.Q， 
我 们 分 别 用 向 量 忆 .六 大 天. 了 来 表示 。 但 这 些 在 寺 维 空间 中 的 向 量 是 由 实数 常数 组 成 的 ， 
而 不 是 实数 变量 。 
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8-14 显示 了 在 R" 中 的 一 般 点 Z 和 定点 A AB. 
图 8-15a 显示 的 是 直线 ; ， 其 方向 为 向 量 w, 
且 过 定点 P (表示 为 区 ) ， 从 而 直线 的 参数 方程 可 
以 表示 为 : 
st zg=twtPp 
其 中 一 ce < 上 :< 十 co 。 由 于 上 从 一 co 变化 到 十 co ， 
因此 点 7 遍历 整 条 直线 。 
8-15b 显示 的 是 超 平面 Kw ， 它 包含 定点 
有 HH ， 且 垂直 于 给 定 的 向 量 万 。 该 超 平面 的 标准 方 
程 为 : 
Hw? CZ- R) =0 
因为 向 量 2-7 SHER. 方程 可 以 重新 表示 为 ; 
Huw! zwtk=0 (8-8) 
Kp wd 5k=-,WERAREN. FEMS z, 
Atk 显 式 地 表述 为 一 维 的 变量 ， 可 以 与 标准 方程 ”图 8-14 在 Rs 中， 一般 点 Z 被 表示 为 向 量 





交换 用 来 指 代 超 平面 。 满 足 超 平面 方程 的 点 ? A z, KPRRSTEB EE z. 
F He 。 对 于 定点 如 A 和 B ， BHD 
图 8-16a 显示 了 从 点 A 到 超 平面 距离 的 线段 和 5 表示 的 ,其 分 量 都 是 实数 
AP , 其 中 已 是 A 在 超 平面 上 的 投影 。 这 个 距离 是 
按 以 下 的 方法 计算 的 ， 由 于 点 A 和 点 王 确 定 的 直线 是 在 艺 的 方向 上 ， 其 参数 方程 可 以 表示 为 ， 
line(AP): Y=twta@ 
其 中 一 co < :< 十 co 。 特 别 地， 对 于 点 P ， 我 们 有 ; 
P=Htwta (8-9) 





a) b) 


8-15 ER PHRRBA: a HRs, RAHMAN w, HABER P = isproba) s 
b) SY He ’ 垂直 于 向 量 w » 且 包 含 定点 r= Chi ,hz ,°° sha) © 点 z= (zl，zz，…， 
z) BRR 中 的 一 般 点 〈 简 便 起 见 ， 原 点 @ 也 是 这 么 表示 的 ) 
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其 中 i EA P 所 对 应 的 t 值 。 由 于 PE€ HW. WURR (8-9) RAK (8-8)， 得 到 
(,wta)wt+k=0 





fF tht t, 
at 
其 中 |w| 为 其 向 量 模 长 。 通 过 将 t REAR 8-9), A 
gig a Petey, B 
w | | w | 
由 于 wo/|o| EE wrath tAE, WA 
=i a@wtk 





它 是 点 A 到 超 平面 H. 的 距离 。 

图 8-16b 显示 了 超 平面 方程 的 符号 是 如 何 根据 超 平面 的 位 置 改变 的 。 超 平面 KX。 上方 的 
区 域 是 由 使 得 超 平 面 方程 zwtk 值 为 正 的 点 2 组 成 的 ， 超 平面 Hw 下方 的 区 域 是 由 使 得 超 
平面 方程 2w+ kh AAR 7 组 成 的 。 


A 


一 
w 





a) 


图 8-16 MOF H. 的 性 质 : a) 如 果 点 也 是 点 A 在 超 平面 ?t。 LURE, WARR AP 就 定义 了 
点 A 到 KH HEB, b 在 超 平面 上 方 的 点 使 得 方程 为 正 值 ， 在 超 平面 下 方 的 点 使 得 方 
BARA 
3. SVM 基本 技术 一 一 形式 化 表述 
为 了 写 出 能 够 定义 优化 问题 的 方程 组 ， 我 们 首先 观察 图 8-17。 坐 标 系 的 原点 为 点 O 。 
点 A 和 点 B 表示 训练 集中 的 两 篇 文档 分别 属于 划 界 超 平面 XK 和 KH ， 因 此 它们 是 支持 向 
量 。 由 于 它们 也 是 训练 集 的 一 部 分 ， 因 此 它们 的 类 别 是 已 知 的 ， 即 我 们 知道 点 A 关联 到 类 
别 c。， 而 点 B 关联 到 类 别 c。 。 
分 割 超 平面 He 在 划 界 超 平面 界定 的 区 域内 ， 是 由 点 及 和 法 向 量 OHA, RA 
个 变量 都 是 无 法 预先 得 到 的 。 其 方程 形式 为 ， 
Hw? <wt+k=0 
令 忆 为 点 A 在 超 平面 Hs 上 的 投影 。 点 A 到 超 平面 的 距离 即 是 线段 AP ， 即 
awtk 
| wv 
现在 让 我 们 把 注意 力 转移 到 超 平面 XH 上 ， 它 与 XH AFH X. SAAB 在 超 平面 
He 上 的 投影 。 点 B 到 超 平面 的 距离 即 是 线段 BE ， 形 式 为 : 


AP = 


310 
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其 形式 与 线段 AP 类 似 。 该 式 必 定 返 回 一 个 正 数 〈 这 是 一 个 距离 度量 ) ， 因 为 式 p wtHk UE 
是 负数 ， 见 图 8-16b。 











图 8-17 ”支持 向 量 机 优化 问题 : AEMT 和 人 那样 的 支持 向 量 ， 找 到 能 够 最 大 化 分 类 间隔 m 
的 超 平面 Tt。 
根据 图 8-17， 支 持 向 量 机 的 分 类 间隔 m 为 : 
m = AP + BQ 
表达 式 与 w 的 大 小 无 关 ， 即 许多 不 同 大 小 的 w 都 能 最 大 化 m 。 因 此 ， 我 们 能 够 引入 对 
lwl 的 约束 。 支 持 向 量 机 优化 中 一 种 常见 的 约束 是 设置 : 
awtk=1 
Bwtk=-1 
即 我 们 限制 解 空间 ， 要 求 向 量 万 能 使 得 超 平面 方程 Sw +k 对 于 所 有 支持 向 量 都 等 于 十 1 或 
者 一 1。 需 要 注意 的 是 ， 这 也 同样 限制 解 向 量 所 在 的 超 平面 恰好 将 分 类 间隔 m 等 分 。 在 这 些 


条 件 下 ， 分 类 间隔 m 的 表达 式 为 : 
1 1 2 


Mear trar aN 

lwi l|wl lw 
对 于 一 个 与 支持 向 量 相 比 ， 与 He 距离 更 远 的 点 C RH, DA PwtkR> 1 或 者 wt 
k<-—1 ’ 取决 于 该 点 位 于 正 值 区 域 还 是 负 值 区 域 。 ST = {es ZJ Gers Zyma lo") 为 


训练 集 ， 其 中 c (ce 或 者 cs ) 为 关联 到 点 蕊 〈 即 某 个 文档 d) 的 类 别 。 类 别 只 能 取 两 个 值 ， 
因为 支持 向 量 机 是 一 个 二 值 决策 问题 ， 于 是 有 如 下 问题 。 
(1) 支持 向 量 机 优化 问题 
最 大 化 m= 2/| wl 
约束 条 件 为 
wz,tk>tl =c 


wz,tk<—l Cj = Ch 
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那些 使 得 等 式 的 值 等 于 十 1 或 者 一 1 的 向 量 即 是 支持 向 量 。 

w) 的 计算 需要 涉及 平方 根 (向 量 的 模 )。 由 于 这 个 因素 ， 该 优化 问题 使 用 | wl)? 会 更 
简单 。 而 且 ， 这 个 问题 还 可 以 表述 为 一 个 最 小 化 问题 ， 如 下 所 述 。 

(2) 支持 向 量 机 优化 问题 


最 小 化 mw = =| a1? 


约束 条 件 为 
wz; +k>+1 Cj = Ca 
wr; tk<—-1l =c 
这 与 前 面 表述 的 形式 有 相同 的 解 ， 但 其 优势 在 于 ， 它 能 够 表述 为 一 个 二 次 线性 优化 问 
题 。 这 在 线性 规划 中 是 一 个 著名 问题 ， 可 以 通过 一 种 叫做 二 次 规划 的 技术 来 高 效 地 解决 。 对 
这 种 技术 的 讨论 已 经 超出 了 本 书 的 范畴 ， 读 者 可 以 参考 相关 的 材料 。 
例子 ”让 我 们 再 来 考虑 图 8-13 中 的 简单 例子 。 在 这 个 例子 中 ， 优 化 问题 可 以 确定 为 以 
下 形式 (为 简便 起 见 ， 我 们 使 用 了 最 大 化 形式 ): 
BK m = 2/| w| 
约束 条 件 为 
we(5,5)+k=+1 
we (1,3)+k=—-1 
在 图 8-13 中 的 简单 例子 中 ， 我 们 可 以 直接 从 几何 角度 来 计算 最 大 化 的 mx ， 并 得 到 m = 
3V2 (在 实际 应 用 中 , m 的 值 是 通过 解 上 面 的 最 大 化 问题 得 到 的 )。 而 且 ， 如 果 将 向 量 w ER 
X ay), WALA lwl= Vz 十 。 因 此 有 : 
372 一 2/ VE Fy 
5r+5y+k=+1 
xr+3ytk=—1 
Kit k =— 5/3 RE k 一 一 7/3 。 对 我 们 有 用 的 值 为 上 三 一 7/3 ， 从 而 有 一 1/3，y = 1/3. 
因此 ， 决 策 超 平面 的 方程 为 以 下 形式 : 
(1/3,1/3)。(zyy) 十 (一 7/3) = 0 
或 


yta-7=0 
即 图 8-13 中 直线 s 表示 的 方程 。 
4. 文档 分 类 
对 一 篇 新 文档 d; ， 表 示 为 向 量 z) ， 其 分 类 过 程 是 通过 以 下 的 决策 函数 完成 的 : 
fZ) = sign Cw Zz, +k) 


如 果 f(z) WAS RIED. BACH d 分 配 到 类 别 c。; 否则 ， 分 配 到 类 别 ce 。 支 持 向 量 机 
分 类 器 可 能 会 有 分 类 间隔 的 要 求 ， 以 减少 分 类 错误 。 在 这 种 情况 下 ， 一 篇 新 文档 d; 被 分 类 
到 类 别 c。 HP, HANS we +k Ols 分 类 到 类 别 cs 中 ， 当 且 仅 当 WZ +k<-1, 

当 文 档 表 示 为 多 维权 重 向 量 时 ， 支 持 向 量 机 可 以 直接 应 用 于 文本 分 类 。 特 别 地 ， 
Joachims[838] 提出 ， 支 持 向 量 机 特别 适合 文档 分 类 问题 ， 因 为 它 可 以 很 好 地 处 理 高 维 而 又 
十 分 稀疏 的 概念 空间 ， 且 不 容易 发 生 过 拟 合 。 此 外 ， 他 还 表示 应 用 特征 选择 来 减少 索引 项 数 
量 不 利于 支持 向 量 机 的 分 类 性 能 ， 因 为 事实 上 大 多 数 特征 都 是 与 分 类 任务 相关 的 。 
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5. 多 类 别 的 支持 向 量 机 

支持 向 量 机 只 能 进行 二 值 决 策 ， 即 判断 一 篇 文档 属于 或 者 不 属于 某 个 给 定 的 文档 类 。 对 
于 文本 分 类 中 的 一 般 情 形 ， 也 就 是 多 类 的 情况 ， 每 一 个 类 别 都 需要 学 习 一 个 不 同 的 分 类 器 ， 
我 们 将 在 下 面 进行 讨论 。 

为 了 处 理 多 类 别 的 支持 向 量 机 分 类 问题 ， 我 们 使 用 将 多 类 问题 分 解 为 多 个 二 类 分 类 问题 
的 策略 。 一 种 很 自然 的 方式 是 对 每 个 类 别 都 建立 一 个 二 类 分 类 问题 。 对 于 给 定 的 类 别 c ， 
相应 的 二 类 分 类 器 会 尝试 回答 这 样 的 问题 “给 定 测试 文档 d, ， 其 正确 的 类 别 标签 是 c， ， 
还 是 其 他 Ck — 1) 个 类 别 中 的 一 个 ?” 针 对 类 别 c 的 分 类 器 是 按 以 下 方法 训练 的 ， 将 训练 文 
档 中 所 有 属于 类 别 c 的 作为 正 例 样本 ， 剩 余 的 训练 文档 作为 负 例 样本 。 这 一 策略 也 称 为 
“一 对 多 ” (one-against-all) , 

为 了 对 一 个 新 文档 d; 进行 分 类 ， 我 们 对 每 个 类 别 都 运行 一 次 分 类 过 程 。 如 果 有 工 个 类 
别 ， 那 么 分 类 过 程 就 会 重复 工 次 。 在 每 个 过 程 中 ， 不 同 的 类 别 c。 与 其 他 所 有 剩余 的 类 别 构 
成 一 个 对 于 文档 d; 的 二 值 决策 过 程 。 这 些 过 程 都 完成 之 后 ,文档 d 可 能 没有 被 分 配给 任何 
类 别 ， 或 者 分 配给 多 个 类 别 ， 甚 至 分 配给 所 有 的 类 别 。 为 了 决定 究竟 将 文档 d 分 配 到 哪个 
类 别 中 ， 我 们 可 以 选择 在 d, 分 类 过 程 中 使 得 分 类 间隔 最 大 的 那个 类 别 。 

另 一 种 可 能 的 方法 是 对 任何 一 对 类 别 c。 和 cy 都 构造 一 个 分 类 器 ， 把 一 个 类 别 中 的 所 有 
训练 文档 作为 正 例 样本 ， 而 另 一 个 类 别 中 的 所 有 样本 都 作为 负 例 样本 ， 剩 余 类 别 中 的 文档 在 
这 个 分 类 器 中 被 忽略 。 在 这 种 情况 下 ， 需 要 回答 的 问题 是 , “对 于 一 篇 给 定 的 文档 ZT. X 
别 cs cg 中 哪个 是 正确 的 标签 ?” 由 于 每 一 对 类 别 都 生成 一 个 不 同 的 分 类 器 ， 这 样 一 共 会 产 
ELD 个 分 类 器 ， 其 中 了 是 类 别 总 数 。 为 了 对 一 个 新 实例 进行 分 类 ， 所 有 分 类 器 的 决 


策 需 要 进行 合并 。 简 单 的 多 数 投票 或 者 更 复杂 的 合并 策略 都 是 可 用 的 。 这 种 策略 通常 也 叫做 
“一 对 一 ” (one-against-one) 或 者 “全 序 对 ” (all-pairs) 方法 。 由 于 分 类 器 的 数量 会 随 着 类 
别 数 量 的 增加 而 呈 平 方 级 增长 ， 因 此 这 种 方法 在 类 别 数 量 很 大 的 情况 下 并 不 实用 。 

还 存在 其 他 可 能 的 方案 。 比 如 可 以 使 用 一 种 投票 策略 对 每 篇 文档 都 选择 一 个 类 别 ， 具 体 
请 参考 文献 [781]. 

6. 线性 不 可 分 情况 下 的 支持 向 量 机 方法 

正如 我 们 已 经 讨论 过 的 那样 ， 计 算 w 的 模 意 味 着 支持 向 量 机 是 一 个 线性 约束 的 二 次 优 
化 问题 。 然 而 ， 这 个 问题 在 没有 超 平 面 能 够 将 数据 点 分 割 成 两 个 不 相交 集合 的 情况 下 是 无 解 
的 ， 这 种 情况 我 们 称 之 为 线性 不 可 分 (non-linear separable)。 在 这 种 情况 下 ， 可 以 通过 人 允 
许 分 类 器 犯 一 些 错 误 〈 软 分 类 间隔 方法 ) 或 者 将 原始 数据 映射 到 一 个 高 维 空间 ， 使 得 映射 后 
数据 线性 可 分 的 方法 ( 核 方法 ) 来 进行 求解 ， 我 们 将 在 下 面 的 内 容 中 具体 讨论 。 

(1) 软 分 类 间隔 

软 分 类 间隔 方法 是 通过 引入 松 弛 变量 e 来 实现 的 ， 这 一 变量 用 来 衡量 每 个 错 分 点 〈 某 
个 野 值 或 者 噪声 样本 ， 位 于 分 类 间隔 之 中 或 者 在 错误 的 分 类 区 域 中 ) 与 决策 面 的 距离 。 这 样 
就 能 将 错 分 点 引入 的 错误 与 付出 的 代价 建立 一 个 比例 关系 。 这 不 仅 有 助 于 处 理 线性 不 可 分 的 
情形 ， 还 使 得 我 们 可 以 寻找 能 够 正确 分 割 大 部 分 数据 的 分 类 面 ， 同 时 不 受 野 值 或 者 噪声 的 影 
响 。 引 和 人 松弛 变量 后 ,支持 向 量 机 优化 问题 可 以 表述 为 : 


最 大 化 m = Tay tre 
约束 条 件 为 
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wz; tk>tl—-e g=a 
BE tk<-lte g=a 
Vj e240 
为 简便 起 见 ， 这 里 我 们 又 一 次 使 用 了 最 大 化 的 形式 。 这 一 优化 问题 现在 是 在 两 个 因素 当中 取 
得 一 个 权衡 : 分 类 间隔 大 小 与 错 分 点 带 来 的 错误 量 。 参 数 y 用 来 控制 这 两 个 因素 的 相对 重要 
性 , 7 的 值 越 大 ， 对 于 错 分 情形 的 容忍 度 就 越 低 。 
(2) 核 方 法 
用 于 处 理 线性 不 可 分 情形 的 核 方法 是 通过 在 变换 特征 空间 中 寻找 最 大 分 类 间隔 超 平面 实 
现 的 ， 而 映射 后 的 数据 是 线性 可 分 的 。 在 变换 空间 中 进行 的 线性 操作 ， 便 能 够 有 效 地 分 割 数 
据点 ， 这 就 等 价 于 在 原始 空间 中 进行 非 线 性 操作 。 
更 形式 化 地 说 ， 支 持 向 量 机 优化 问题 可 以 推广 为 以 下 形式 : 
支持 向 量 机 优化 问题 : 


But m= = Xll? 


约束 条 件 为 
SÈD kH Gp =e 
f(W, ZI+RS1 Gg =u 
在 实际 应 用 中 ， 空 间 变 换 可 以 通过 使 用 不 同 的 三 ( 核 ) 函数 来 实现 ， 而 无 须 直 接 将 数 
据点 从 原始 空间 映射 到 变换 空间 中 。 从 这 个 意义 上 说 ， 核 函数 可 以 视 为 一 种 关于 输入 向 
Bw? 的 相似 度量 。 在 传统 的 线性 支持 向 量 机 的 情况 下 ， 核 函数 f 是 输入 向 量 的 点 
积 ， 即 
Sz; = We, 
然而 ， 在 一 般 情况 下 ， 许 多 其 他 函数 都 可 以 使 用 。 常 用 的 非 线 性 核 函 数 有 : 
。 多 项 式 核 函数 : wr) = r tD, AP d 为 多 项 式 的 次 数 。 
。 RHEB: W7) = expa X |wz,|2),.A>0. 
。 sigmoid 函数 : f(w,z,) = tanhl wr) +), He >0,c<0. 
可 以 用 做 核 函数 的 相似 度量 是 有 一 定 约束 的 ， 然 而 这 已 经 超出 了 我 们 讨论 的 范围 。 


8.4.6 集成 分 类 器 


集成 分 类 器 将 多 个 独立 分 类 器 的 结果 合并 起 来 ， 希 望 能 够 提供 高 质量 的 结果 。 其 背后 的 
直观 思想 是 基于 独立 的 分 类 器 都 是 足够 准确 而 互 异 的 。 这 里 准确 〈accuracy) 指 的 是 分 类 器 
能 够 产生 高 于 随机 猜测 水 平 的 结果 ， 互 异 (diversity) 指 的 是 不 同 的 分 类 器 对 许多 实例 能 产 
ERAKAR. 

1. 基本 技术 

集成 分 类 器 将 不 同 分 类 器 的 预测 结果 合并 ， 产 生 一 个 新 的 预测 分 数 。 理 想 的 情况 是 ， 合 
并 后 的 分 数 能 够 带 来 比 单个 分 类 器 更 高 精度 的 结果 。 直 观 的 想法 是 ， 不 同 的 分 类 器 可 能 会 有 
不 同 的 表现 ， 如 果 这 些 分 类 器 都 是 准确 而 互 异 的 话 ， 那 么 将 它们 的 决策 恰当 地 合并 可 能 会 产 
生 一 个 更 有 效 的 分 类 器 。 集 成 分 类 器 在 许多 情况 下 都 体现 了 实质 性 的 优势 ， 因 此 被 视 为 机 器 
学 习 领 域 的 一 项 巨大 进展 [1429, 1585], 

多 年 来 ， 人 们 提出 了 许多 集成 学 习 的 方法 。 这 些 方法 的 主要 区 别 在 于 分 类 器 的 选择 以 及 
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合并 预测 的 方式 。 合 并 预测 的 策略 从 简单 的 多 数 投票 到 基于 独立 分 类 器 可 靠 性 的 加 权 平 均 ， 
种 类 非常 丰富 。 我 们 主要 讨论 其 中 的 两 种 : Bi (stacking) 与 增强 (boosting). 

2. 叠加 型 集成 分 类 器 

一 种 提高 由 不 同 分 类 器 产生 的 结果 的 方法 是 学 习 一 个 能 够 将 单个 分 类 器 的 预测 合并 集成 
的 函数 ， 正 如 参考 文献 [1716] 和 图 8-18 所 显示 的 那样 。 在 这 种 情况 下 ， 训 练 集中 的 每 个 
文档 -类 别 对 Cd; scp] 都 对 应 一 个 由 不 同 分 类 器 对 该 文档 -类 别 对 产生 的 预测 结果 所 组 成 的 向 
量 。 即 我 们 使 用 向 量 式 的 二 值 决策 ， 而 不 是 单个 的 二 值 决 策 。 这 样 ， 如 果 某 个 分 类 器 做 出 错 
误 的 预测 ， 也 能 够 被 其 他 分 类 器 的 预测 纠正 过 来 。 元 分 类 器 的 方法 称 为 登 加 〈stacking ) 。 
其 主要 想法 是 将 不 同 的 分 类 器 (通常 称 为 基 分 类 器 ，base classifier) 产生 的 信息 作为 训练 数 
据 的 元 特征 ， 提 供给 元 分 类 器 。 元 分 类 器 并 不 直接 预测 给 定 文档 dj 的 类 别 ， 而 是 1) 预测 能 
够 最 好 地 预测 d;i 的 基 分 类 器 ; 或 者 2) 将 基 分 类 器 的 预测 合并 ， 产 生 更 好 的 结果 。 合 并 不 同 
分 类 器 预测 的 明显 优势 在 于 ， 某 个 基 分 类 器 的 错误 能 够 被 其 他 基 分 类 器 所 平衡 。 












































































































































训练 文档 1 | 一 EH | fo naxe | ware T 
朴素 Lo! 村 素 o 
= | 一 中 叶 斯 1! 贝 叶 斯 
特征 向 量 1 | 二 : 
L_ | 近邻 上 2 一 | /近邻 | “也 
‘Tse | [Re Gea 
\ | 向 量 机 | 贝 叶 斯 
训练 文档 ! | LO l AER] 
训练 文档 2 £ 0 0. \--"j0 


























图 8-18 有 登 加 型 集成 分 类 器 的 训练 步骤 。 元 分 类 器 (meta classifier) 是 一 个 将 所 有 分 类 器 的 预 
测 合并 的 模型 ， 希 望 能 使 模型 更 匹配 训练 集中 的 真实 类 别 

分 类 新 文档 

一 个 在 文本 分 类 中 应 用 印加 方法 的 例子 显示 在 图 8-19。 元 分 类 器 将 不 同 分 类 器 对 于 文档 
d, 和 目标 类 别 c。( 图 上 未 显示 ) 的 预测 作为 输入 。 然 后 将 这 些 预 测 合并 ， 产 生 自己 的 预测 结 
果 ， 这 里 是 LE c。。 元 分 类 器 本 身 可 能 也 是 一 个 基 分 类 器 。 比 如 支持 向 量 机 就 常常 是 一 种 
很 好 的 元 分 类 器 的 选择 。 

给 定 一 篇 新 文档 d; ， 每 个 基 分 类 器 都 对 其 产生 一 个 输出 。 将 一 个 由 所 有 预测 结果 组 成 
的 向 量 提供 给 元 分 类 器 以 便 产 生 最 终 的 预测 。 如 果 想 了 解 更 多 的 细节 ,读者 可 以 参考 文献 
[256, 1585, 1716]. 

3. 增强 型 集成 分 类 器 

增强 (boosting) 是 集成 分 类 器 采用 的 一 种 特殊 方法 ， 对 于 相同 的 学 习 方 法 ， 在 多 次 和 迭 
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代 后 会 产生 多 个 分 类 器 ， 该 方法 把 这 些 分 类 器 合并 起 来 。 在 每 次 迭代 中 ， 使 用 叫做 能 
(weak) 学 习 算 法 或 者 基 (hase) 学 习 算 法 的 方法 来 训练 分 类 器 ， 这 些 学 习 算法 可 能 只 产生 
有 限 的 准确 率 〈 如 单个 决策 规则 或 者 决策 树 ) 。 
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并 ,产生 关于 文档 d, 和 目标 类 别 c*。〈 图 上 未 显示 ) 成 员 关系 的 元 预测 。 在 这 个 例子 
中 ， 最 终 的 预测 是 1， 即 d, Ec, 


增强 型 集成 分 类 器 的 主要 想法 是 相继 产生 更 好 的 分 类 器 ， 而 每 个 分 类 器 都 更 重视 在 之 前 
版 本 的 基 分 类 器 中 被 错误 分 类 的 那些 训练 文档 。 在 每 次 交互 中 ， 训 练 集中 的 每 篇 文档 都 赋予 
一 个 权重 。 利 用 这 些 权重 选择 在 下 次 交互 中 需要 重视 的 文档 。 为 了 保证 训练 集中 的 困难 样本 
最 终 会 变 为 “重要 的 ” (focused) 文档 ， 没 有 正确 分 类 的 文档 的 权重 在 每 轮 和 迭代 中 都 被 加 
大 。 在 nn 轮 迭代 后 ， 多 个 训练 好 的 分 类 器 的 输入 通过 加 权 平 均 来 进行 合并 ， 其 权重 取决 于 每 
个 分 类 器 的 估计 错误 率 。 

最 初 在 文献 [592] 中 提出 的 AdaBoost 学 习 算法 ， 是 一 个 将 增强 学 习 〈boosting) 应 用 
于 文本 分 类 的 例子 。 在 文献 [1433] 中 讨论 的 一 种 算法 变 体 显 示 在 图 8-20 中 。 








| 
AdaBoost 
(1) let 7 : D, x C be the training set function 
(2) let N; be the training set size 
(3) let M be the number of iterations 
(4) initialize the weight wj of each document dj as wj = Ne 
(5) for k—1...M do 
(6) learn the classifier function Fẹ from the training set 
(7) estimate weighted error: 


wee a= 7 Nt 
ik = Yd; ld, misclassified Wi / Dasi Wj 


compute a classifier weight: a, = 3 x log (=) 





(8) 
(9) for all correctly classified examples ej do wj — wj Xe ok 
(10) for all incorrectly classified examples ej do wj wj * ec 
11) normalize the weights w; so that they sum up to 1 











图 8-20 AdaBoost 的 变 体 


分 类 新 文档 

为 了 对 新 文档 dj; 进 行 分 类 ， 我 们 将 所 有 分 类 函数 大 :都 应 用 于 该 文档 。 文 档 d; 被 分 配 到 
函数 值 最 大 的 类 别 中 。 

细心 的 读者 可 能 注意 到 ， 上 面 的 形式 只 对 二 值 分 类 问题 有 效 。 为 了 处 理 多 类 问题 ， 需 要 将 
这 一 算法 进行 推广 [1430]。 比 如 一 种 叫做 AdaBoost. MH[1431] 的 推广 方法 ,使 用 了 8.4. 5 节 
中 讨论 的 “一 对 多 ”策略 ， 这 意味 着 对 于 K 个 类 别 的 问题 就 会 有 K 个 集成 分 类 器 。 另 一 方面 ， 


[318] 
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AdaBoost. M2[593] 使 用 了 “一 对 一 ”的 方法 。 其 他 方法 可 以 参考 文献 133, 786]. 


8.4.7 关于 监督 算法 的 结束 语 


本 节 中 ， 我 们 讨论 了 多 种 流行 的 监督 文本 分 类 算法 。 我 们 主要 集中 在 图 8-2 中 显示 的 六 
种 监督 算法 ， 即 决策 树 、 最 近邻 、Rocchio 相关 反馈 、 朴 素 贝 叶 斯 、 支 持 向 量 机 以 及 集成 
学 习 。 

决策 树 根 据 输入 数据 中 存在 的 模式 来 建立 模型 ， 这 样 的 方法 是 直观 且 易 于 使 用 。 然 而 ， 
这 样 的 模型 灵活 性 不 足 ， 在 待 分 类 的 文档 包含 未 知 的 模式 时 就 会 失效 。 另 一 方面 ， 最 近邻 分 
类 器 是 通过 距离 函数 来 找 出 与 待 分 类 文档 距离 最 近 的 邻居 。 分 类 的 结果 是 由 最 近邻 的 类 别 决 
定 的 。 这 种 方法 的 一 大 优点 是 可 以 只 关注 那些 待 分 类 文档 中 出 现 的 特征 ， 而 不 需要 查找 所 有 
输入 数据 中 出 现 过 的 模式 。 这 种 方法 的 一 个 缺点 是 性 能 ， 因 为 需要 现场 计算 与 其 他 许多 文档 
AY BE BS o 

Rocchio 分 类 器 利用 相关 反馈 的 理论 来 计算 类 中 心 。 通 过 修改 索引 项 权重 ， 这 一 方法 能 
够 在 文档 索 引 项 空间 中 进行 重 定位 ， 从 而 更 好 地 反映 正面 索引 项 的 影响 。 正 如 在 基于 查询 区 
域 的 Rocchio 分 类 器 中 所 实现 的 ， 需 要 更 多 地 考虑 那些 属于 正面 文档 的 索引 项 。 这 种 优化 策 
略 能 够 对 Rocchio 分 类 融 进 行 精 细 的 调整 ， 从 而 得 到 高 质量 的 结果 。 高 级 Rocchio 分 类 器 可 
以 达到 最 好 的 性 能 ， 具 有 很 强 的 竞争 力 。 

朴素 贝 叶 斯 分 类 器 利用 概率 论 来 估计 正确 分 类 的 可 能 性 。 这 种 方法 通常 会 有 不 错 的 表 
现 ， 能 够 作为 一 种 有 竞争 力 的 文本 分 类 方法 。 支 持 向 量 机 分 类 器 天 然 地 构成 了 一 个 优化 问题 
的 形式 。 这 一 形式 考虑 了 分 类 错误 间隔 ， 能 够 有 效 地 避免 分 类 错误 。 这 种 方法 通常 能 够 训练 
出 高 质量 的 分 类 器 ， 单 独 的 方法 〈 非 集成 的 ) 一 般 很 难 有 其 他 方法 可 以 匹敌 。 

集成 分 类 器 将 不 同类 型 的 分 类 器 合并 ， 产 生 高 质量 的 结果 。 这 种 方法 在 训练 和 测试 时 都 
是 十 分 昂贵 的 。 然 而 ， 它 通常 能 带 来 最 好 的 结果 ， 因 此 也 常常 作为 任务 的 基线 ， 尤 其 在 希望 
能 够 对 方法 做 全 面 研 究 的 时 候 。 


8.5 特征 选择 或 降 维 

正如 在 8.4 节 中 讨论 的 ， 庞 大 的 特征 空间 可 能 导致 文档 分 类 器 无 法 实际 应 用 ， 因 为 对 新 
文档 的 分 类 可 能 需要 消耗 太 多 的 时 间 。 这 个 问题 的 传统 解决 方法 是 选择 所 有 特征 的 一 个 子 集 
来 表示 文档 ， 从 而 减 小 特征 空间 的 维度 。 这 个 步骤 称 为 特征 选择 (feature selection), 我们 
将 在 这 一 节 进 行 讨 论 。 

为 了 产生 特征 向 量 ， 我 们 需要 选择 特征 〈 索 引 项 ) 的 一 个 子 集 来 表示 文档 。 除 了 降低 文 
档 表 示 的 维度 之 外 ， 特 征 选择 也 有 助 于 避免 过 拟 合 Coverfitting) 的 情况 ， 即 降低 了 模型 过 
于 特例 化 的 风险 。 过 分 的 特例 化 可 能 会 导致 模型 无 法 很 好 地 推广 到 未 知 的 新 文档 。 我 们 的 讨 
论 基 于 参考 文献 [1744]. 

假设 在 索引 过 程 中 ， 每 个 索引 项 -文本 对 (ed; | 都 与 一 个 权重 ww 相关 联 。 这 个 权重 可 
以 简单 地 设置 为 索引 项 的 文档 频率 ， 即 包含 索引 项 k 的 不 同文 档 的 数量 。 或 者 也 可 以 设置 
为 TF-IDF 权重 (更 多 细节 可 以 参考 3.2.4 节 )。 给 定 权 重 rw 后 ， 我 们 从 中 选择 最 终 组 成 
特征 向 量 的 索引 项 。 这 一 过 程 通常 称 为 基于 索引 项 选择 的 降 维 (dimensionality reduction by 
term selection) ， 可 以 通过 不 同 的 标准 来 实现 。 这 里 我 们 主要 讨论 五 种 标准 : 索引 项 文档 频 
率 、TF-IDF 权重 、 互 信息 、 信 息 增益 以 及 卡 方 检验 。 
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在 正式 开始 讨论 之 前 ， 我 们 首先 给 出 项 -类 别 出 现 列 联 表 的 定义 ， 它 与 3. 2.7 节 中 经 典 
概率 模型 的 列 联 表 是 类 似 的 。 


8.5.1 项 -类 别 出 现 列 联 表 


如 图 8-5 所 示 ， 所 有 的 索引 项 组 成 了 文档 表示 。 为 了 降低 文档 表示 的 大 小 ， 需 要 进行 特 
征 选择 过 程 。 这 一 过 程 在 很 大 程度 上 依赖 于 对 索引 项 在 文档 和 类 别 中 出 现 次 数 的 统计 。 具 体 
表述 如 下 。 

定义 令 Di 为 训练 文档 组 成 的 集合 , 入, 为 有 中 的 文档 数量 ,7 为 也 包含 索引 项 有 ;的 文 
档 数 量 〈 值 得 注意 的 是 ，7i 在 第 3 章 指 的 是 在 整个 文档 集中 包含 索引 项 忆 的 文档 ， 而 这 里 指 
的 是 训练 集中 包含 索引 项 上 ;的 文档 )。 另 外 ， 令 C= {cycz cz) 为 总 共 工 个 类 别 的 集合 。 
假设 存在 一 个 训练 集 函 数 卫 ;:D: XC 一 [0,1] ,， 令 n, 为 属于 类 别 c。 EC 的 文档 的 数量 。 项 -类 
别 出 现 列 联 表 即 为 以 下 形式 : 













情形 
包含 & 的 文档 
不 包含 & 的 文档 





在 类 别 c* 中 的 文档 


Nip 


不 在 类 别 c* 中 的 文档 


Ni Nip 


















np Tip Ni—ni— (np—ni.p) 





包含 索引 项 且 属 于 类 别 c 的 文档 数量 记 为 n;,。， BERKIT k 且 不 在 类 别 c, PMX 
档 数量 为 ni 一 ni,。。 nj 为 属于 类 别 cs 的 训练 文档 的 总 数 , n — ne 为 类 别 c， 中 不 包含 索引 项 
ki 的 文档 数量 。 其 余 的 数量 也 都 以 类 似 的 方式 计算 。 项 -类 别 出 现 列 联 表 显 式 地 展现 了 组 成 
文档 训练 集 的 各 个 子 集 的 大 小 。 

有 了 上 面 的 项 -类 别 出 现 列 联 表 之 后 ， 我 们 就 可 以 定义 我 们 感 兴趣 的 各 种 概率 ， 具 体形 
式 如 下 。 

S d; 为 随机 选 自 训练 集 的 一 篇 文档 。 定 义 : 

P(k;) : k; € d; 的 概率 。 

P(k;) : k; € ad; 的 概率 。 

Plc,) : dj € c, 的 概率 。 

P(z,) : d; 4 c 的 概率 。 

Pl(kiycsp) : ki € d; Hd; E c, 的 概率 。 

Pl(ki,c,) : ki Ẹ dj Hd; Eco 的 概率 。 

PCkist,) : ki € d; Hd; Ec, 的 概率 。 

Pk,,t)) :k: ¢ d; Hd; ¢ cp 的 概率 。 





这 些 概率 可 以 按 如 下 形式 计算 ， 
PC = i PCR) = aS ni 
P (cy) -R P(z,) = y 
P (Rise) = X PCR sey) = “At 





iT, T N: — n; — (np — Nip) 
P(k,.t,) 一 二 K PR 人 


这 些 概 率 都 很 重要 ， 它 们 在 本 节 当 中 讨论 的 各 种 索引 项 选择 方法 中 都 会 被 使 用 。 


320 


321 


322 


236 + 第 8 章 文本 分 类 


8.5.2 索引 项 文档 频率 


一 种 简单 而 有 效 的 索引 项 选择 过 程 只 使 用 那些 文档 频率 超过 某 个 预定 义 的 频率 阐 值 的 索 
引 项 来 表示 文档 ， 即 
基于 索引 项 文档 频率 的 特征 选择 。 设 Ka 为 索引 项 文档 频率 的 阐 值 。 那 么 ， 所 
有 满足 ni; 之 Ks 的 索引 项 有 :被 保留 下 来 ， 其 他 索引 项 都 被 含 弃 。 文 档 表示 根据 那些 
保留 的 索引 项 来 重新 计算 。 
本 节 所 讨论 的 特征 选择 过 程 都 应 当 在 去 除了 禁用 词 之 后 再 进行 。 即 使 是 简单 的 高 频 文档 
索引 项 选择 的 方法 也 能 有 效 地 降低 空间 的 维度 ， 同 时 不 会 对 最 终 的 效果 有 太 大 的 影响 。 


8.5.3 TF-IDF 权重 


一 种 类 似 但 更 为 精细 的 过 程 是 保留 那些 在 每 篇 文档 必 中 TF-IDF 权重 较 高 的 索引 项 

(参考 第 3 章 关 于 TF-IDF 权重 更 为 详细 的 讨论 ) 。 
基于 TF-IDF 权重 的 特征 选择 。 设 wy 为 项 -文档 对 [kd] 的 TF-IDF RË, 

与 3.2.4 节 的 定义 类 似 。 另 外 ， 令 Ka 为 TF-IDF 权重 的 阅 值 。 从 而 所 有 满足 n 之 

Ky, 的 索引 项 k; 被 保留 下 来 ， 其 他 索引 项 都 被 舍弃 。 文 档 表 示 根 据 那些 保留 的 索引 

项 来 重新 计算 。 

这 一 过 程 是 对 上 一 个 过 程 的 补充 。 频 率 很 低 的 索引 项 ， 其 TF-IDF 权重 也 很 低 ， 在 这 两 
个 过 程 中 都 会 被 会 弃 。 另 一 方面 ， 对 于 高 频 的 索引 项 就 会 有 不 同 的 处 理 方式 。 在 基于 索引 项 
文档 频率 的 选择 方法 中 会 保留 它们 ， 但 基于 TF-IDF 权重 的 选择 方法 可 能 会 将 它们 去 除 ， 因 
为 高 频 可 能 会 导致 较 低 的 TF-IDF 权重 。 在 文献 [1744] 中 的 实验 表明 ， 使 用 TF-IDF 权重 
进行 特征 选择 能 够 将 空间 维度 减 小 10 倍 而 不 带 来 任何 效果 上 的 损失 。 甚 至 可 以 在 将 空间 维 
度 缩小 100 倍 的 情况 下 ， 只 对 效果 产生 很 小 的 影响 。 


8.5.4 互信 息 


互信 息 是 两 个 随机 变量 分 布 相 对 炳 的 度量 。 如 果 这 些 变量 之 间 是 独立 的 ， 那 么 它们 的 互 
信息 为 0， 即 关于 一 个 变量 的 知识 不 能 推理 出 男 一 个 变量 的 任何 信息 。 索 引 项 下 与 类 别 集 合 
C 的 互信 息 MI(k;,C) 可 以 表示 为 如 下 期 望 值 : 

















Pip 
— PCR; scp) — N, 
ICkiscp) log( pep PE ) = log hye Tp 
N,N, 
再 对 所 有 类 别 求 期 望 值 ， 即 有 ， 
L 
MI(ki,C) = >) Plc,) ICR scp) (8-10) 
p=1 
L Nip 
= 5 Te log - N 
Zi +N: Mi y Mo 
- N,” N, 








另 一 种 方法 是 使 用 所 有 类 别 中 索引 项 互信 息 最 大 的 那个 ， 即 


Irar (Ck; sC) 一 maxP (lk;,c,) 
p= 


1 
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在 这 种 情况 下 ， 特 征 选择 过 程 可 以 概述 为 : 
SFO. Kn AMMA. BAR AMHR MI(k;,C) > Ks (或 者 
Inox (hi sC) = Ky) 的 索引 项 局 被 保留 下 来 ， 其 他 索引 项 都 被 含 齐 。 文 档 表示 根据 
那些 保留 的 索引 项 来 重新 计算 。 


8.5.5 信息 增益 


信息 增益 这 一 测度 是 对 互信 息 的 补充 。 它 不 仅 考 虑 索引 项 在 文档 中 出 现 的 概率 ， 同 时 也 
考虑 索引 项 不 在 文档 中 出 现 的 概率 。 因 此 它 平 衡 了 索引 项 与 文档 共 现 和 索引 项 不 与 文档 共 现 
两 种 情况 对 其 信息 量 的 影响 。 
索引 项 对 于 类 别 集合 C 的 信息 增益 1G(&k;,C) 定义 如 下 : 
IG¢(k; .C) = H(C)— H(C|k;) — H(C|> k) 
其 中 HO WARIS CHA. HCl k) 与 HCI k) 为 索引 项 k; 出 现 或 者 不 出 现 情况 下 C 
的 条 件 箭 。 从 信息 论 角 度 上 来 说 ，IC(A,C) 用 来 度量 在 知道 ; 的 信息 之 后 ， 所 增加 的 关于 C 
的 知识 。 > 323 
使 用 在 8.5.1 7 PE MN RBY RMR 65.19), A: 


L 
IG(ki,C) =— >) Plc, )logP(c,) 
£ 
L 
— (= J Pek +¢plogP(c, |k;) ) 
p=1 
L 


一 (一 DI PR, ,cs logP Cc, |k) ) 
p=l 
应 用 贝 叶 斯 法 则 ， 可 以 将 其 重 写 为 以 下 形式 : 


L 
IG (0) =— > ( PCe,logP(c,) — PCR: c, )log( 


p= 





PCR; "ce ) 
PCR) 
— PE eolog( PA?) ) 


通过 使 用 在 8.5.4 节 中 的 概率 定义 ， 可 以 将 其 改写 为 ， 
IG (k; C) 一 一 D (NCN) — elog (Le) — "7 *Flog(—"*)) C8-11) 
这 一 特征 选择 的 过 程 可 以 概述 如 下 。 
基于 信息 增益 的 特征 选择 。 设 Kj 为 信息 增益 的 阅 值 。 那 么 ， 所 有 满足 IG, 
OSK, 的 索引 项 k; 被 保留 下 来 ， 其 他 索引 项 都 被 合 齐 。 文 档 表 示 根 据 那些 保留 的 
索引 项 来 重新 计算 。 


8.5.6 卡 方 检验 


卡 方 检验 是 对 索引 项 k 和 类 别 c, 独立 性 的 缺失 所 做 的 度量 。 这 一 统计 量 定义 如 下 : 
_ NCPCRi 9c, PO kime) — PCRs PO kise) 
加 PDPO Rk DPC Pe,) 





x Ck; 2Cp) 
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[324] 通过 使 用 在 8. 5. 1 节 中 的 概率 定义 ， 可 以 将 其 改写 为 : 


325 


Nino CN, — ni — ng + nip) — (i — nip) (ng — nig)? 
n,(N, — npn: CN, — ni) 
O N Nap — npn)” 
nyn: (N, — np) CN, — ni) 
为 了 对 索引 项 k 进行 特征 选择 ， 我 们 需要 按 以 下 形式 计算 索引 项 的 平均 (或 者 最 大 ) 
卡 方 检验 值 。 


x (k; scp) = 








L 
Kes Cki) = DN Plop) X CRi sey) (8-12) 
p=1 


nex (ki) = maxx (Ri scp) 
这 一 特征 选择 的 过 程 可 以 概述 如 下 。 
基于 卡 方 检验 的 特征 选择 。 令 Ka 为 卡 方 检验 的 阅 值 。 那 么 ， 所 有 满足 
Xe (k) > Ky (或 者 Amer (hi) 之 Ks) 的 索引 项 被 保留 下 来 ， 其 他 索引 项 都 被 合 
弃 。 文 档 表示 根据 那些 保留 的 索引 项 来 重新 计算 。 


8.5.7 特征 选择 的 作用 


特征 选择 能 够 将 索引 项 空间 即 特 征 数 的 大 小 减少 一 到 两 个 数量 级 ， 而 不 会 对 文本 分 类 的 
过 程 造成 太 大 的 影响 。 有 些 特征 选择 的 方法 会 在 平均 水 平 上 比 其 他 方法 表现 得 更 好 。 如 文献 
[1446] 的 实验 就 说 明了 卡 方 检验 和 信息 增益 的 指标 相对 于 其 他 三 种 指标 的 优越 性 。 

特征 选择 所 带 来 的 维度 约 减 是 至 关 重 要 的 。 这 样 才能 允许 我 们 实现 更 为 精细 的 文本 分 类 
算法 ， 从 而 改进 结果 。 而 这 些 算法 在 原始 索引 项 空间 中 是 无 法 实现 的 ， 因 为 这 需要 很 长 的 运 
行 时 间 ， 使 得 其 不 能 实际 应 用 。 


8.6 评价 指标 

与 所 有 信息 检索 技术 一 样 ， 评 价 在 任何 文本 分 类 方法 的 发 展 中 都 是 非常 重要 的 一 个 步 
又 。 没 有 合理 的 评价 与 基准 ， 就 没有 办 法 判断 一 个 新 提出 的 文本 分 类 器 的 好 坏 。 评 价 是 验证 
新 提出 的 分 类 方法 的 一 个 重要 步骤 。 本 节 中 ， 我 们 将 介绍 一 些 评价 单 标签 文本 分 类 器 时 最 党 
用 的 指标 。 我 们 的 讨论 受到 参考 文献 [1446, 1743] 很 大 的 影响 。 


8.6.1 列 联 表 


为 了 描述 文本 分 类 中 最 常用 的 一 些 评价 指标 ， 我 们 首先 定义 对 于 某 个 类 别 c, 的 列 联 表 。 
它 与 8. 5. 1 节 中 的 项 -类 别 出 现 列 联 表 是 类 似 的 ， 具 体 定义 如 下 。 

定义 设 刀 为 文档 集 ，N, 为 所 有 训练 文档 (或 者 所 有 已 知 类 别 的 测试 文档 ) 组 成 的 集合 ， 
N, A D PHARE., AI, ACS ias 为 总 共 工 个 类 别 的 集合 。 假 设 存 在 一 个 训 
练 集 函 数 T:D XC 一 [0,1] 和 一 个 文本 分 类 通 数 下 :DDXC 一 [0,1] 。 设 nn 为 被 函数 本 分 配 到 
类 别 cs 的 文档 的 数量 (我 们 早先 设 其 为 n, ), nj 为 被 函数 下 分 配 到 类 别 cr 的 文档 的 数量 。 假 设 
对 训练 集中 的 所 有 文档 都 应 用 了 该 分 类 器 。 那 么 ， 我 们 可 以 构造 以 下 形式 的 列 联 表 : 


T (djep) =1 


Nfe 





情形 
Fdj sep) = 1 
Fede) =0 
所 有 文档 






Tdj,¢,) =0 


FA Aga 



















N> ngm tnpa 





NeT Nfa 
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其 中 ny, 是 在 训练 函数 和 分 类 函数 中 都 分 配 到 类 别 c* 中 的 文档 数量 。 值 得 注意 的 是 ， 我 们 改 
变 了 符号 表示 方法 ， 使 得 分 类 函数 和 训练 函数 产生 的 不 同 集合 得 以 区 分 。 另 外 为 了 简化 我 们 
的 符号 表示 ， 我 们 没有 在 下 标 中 包含 类 别 co 的 引用 。 给 定 上 面 的 列 联 表 之 后 ， 类 别 c* 中 的 
训练 文档 被 错 分 的 数量 为 n, 一 2r… 。 剩 余 的 数值 都 可 以 使 用 相似 的 方法 计算 出 来 。 


8.6.2 准确 率 和 错误 率 


文本 分 类 器 对 于 某 个 给 定 类 别 cp 的 准确 率 和 错误 率 指标 是 按 如 下 方式 定义 的 ， 准确 率 
是 训练 文档 中 被 分 类 器 分 配 到 正确 类 别 的 文档 所 占 的 比例 ; 错误 率 是 训练 文档 中 被 分 类 器 分 
配 到 不 正确 类 别 的 文档 所 占 的 比例 。 即 
ny + ON, — ny — 1, + 17.1) 
(ny — npa) 十 (2 — ny) 


t 





Ace (cp) = (8-13) 


Err(c,) = (8-14) 


注意 到 必然 有 : 
Acc (cp) + Err(e,) = 1 

准确 率 和 错误 率 尽 管 使 用 很 广泛 ， 但 仍然 存在 着 很 大 的 不 足 。 假 设 有 这 样 一 个 例子 ， 一 
个 二 类 分 类 问题 只 有 两 个 类 别 cp Ae, 。 如 果 某 个 类 别 的 文档 数量 相对 于 文档 集合 的 总 数 来 
说 比例 很 小 的 ， 那 么 这 些 指标 可 能 就 会 变 得 不 可 信 。 举 例 来 说 ， 假 设 在 1000 个 文档 中 ， 只 
有 20 个 属于 类 别 c,。 那 么 ， 一 个 非常 简单 的 分 类 器 一 一 仅仅 简单 的 假设 所 有 文档 都 不 属于 
类 别 cs 就 能 获得 98% (980/1000) 的 准确 率 和 2% 的 错误 率 。 这 样 的 数值 表示 我 们 拥有 了 
一 个 很 好 的 分 类 器 ， 但 这 与 实际 情况 表 8.2 某 个 分 类 器 的 列 联 表 ， 该 分 类 器 能 够 正确 地 预测 类 
不 符 。 Bi oy 中 20 个 文档 的 一 半 

假设 现在 另 一 个 分 类 器 能 正确 地 预 情形 T (dj scp) =0 
测 类 别 cp H 50% HY, WN 8-2 所 Fidi) = 1 
示 。 在 这 种 情况 下 ,准确 率 和 错误 F (dive) = 0 
率 为 ， 所 有 文档 











10 十 980 
Acc(co) 一 一 000 一 99% 


10 十 0 
Erre) = So = 1% 


这 个 分 类 器 比 只 猜测 所 有 文档 都 不 属于 类 别 cp 的 分 类 器 要 好 得 多 ， 但 其 准确 率 只 提高 
T1% OA 98% 增 加 到 99%)。 表 示 这 两 个 分 类 器 几乎 是 等 价 的 ， 但 这 与 实际 情况 不 符 。 


8.6.3 精度 和 召回 率 


文本 分 类 中 的 精度 (precision) 与 召回 率 (recall) 是 信息 检索 中 精度 率 与 召回 率 指标 
的 翻版 。 它 们 用 来 衡量 文本 分 类 器 的 质量 ， 而 且 能 把 某 些 我 们 前 面 提 到 的 关于 准确 率 的 问题 
降低 到 最 小 。 

对 于 某 个 给 定 类 别 c 的 精度 与 召回 率 数值 是 按 以 下 方法 计算 的 。 


P(c,) = 2 (8-15) 
ny 








Rcc) = Ars (8-16) 


1 
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精度 是 所 有 被 分 类 器 分 配 到 类 别 cp 的 文档 中 确实 属于 类 别 c* 的 文档 (根据 测试 集 ) 所 占 的 
比例 。 召 回 率 是 所 有 确实 属于 类 别 cp 的 文档 (根据 测试 集 ) 中 被 分 类 器 正确 分 配 到 类 别 cp 
的 文档 所 占 的 比例 。 
再 回 到 我 们 用 来 计算 准确 率 的 那个 小 集合 的 例子 。 假 设 训 练 集中 只 有 20 个 文档 属于 类 
别 c。。 简 单 地 认为 所 有 文档 都 不 属于 类 别 cp 的 朴素 分 类 器 会 导致 精度 为 0， 而 对 于 图 8-2 所 
示 的 分 类 器 ， 精 度 和 召回 率 数 值 为 : 
0 


Ple,) = 3 = 100% 


10 
R(c,) = 20 = 50% 


即 分 类 器 对 于 类 别 c。 有 100% 的 精度 和 50% 的 召回 率 。 
通常 ， 把 精度 和 召回 率 合并 为 一 个 指标 会 更 便于 使 用 。 一 种 最 常用 的 指标 叫做 下 测度 
MF 值 ， 我 们 将 在 8. 6. 4 节 进 行 讨论 。 


8.6.4 F RRA F, 
F 测度 [1743] 将 精度 和 召回 率 合并 起 来 ， 而 且 可 以 对 这 些 指标 赋予 不 同 的 权重 (参考 
4. 3.2 节 )。 具 体形 式 如 下 。 


Fle) = TDP Rp) 


a P(c,) + RCc,) 
其 中 a 定义 了 精度 和 召回 率 的 相对 重要 性 。 当 a = 二 0 时 ,只 考虑 精度 ; 当 w = coe 时， 只 考虑 
召回 率 ; 当 a 二 0.5 时 ， 召 回 率 的 重要 性 被 认为 是 精度 的 一 半 ; 以 此 类 推 。 

最 常用 的 下 测度 形式 是 通过 赋予 精度 和 召回 率 相同 的 权重 得 到 的 ， 即 令 a = 1 。 这 一 指 
标 也 被 称 为 F 测度 ， 计 算 形式 如 下 : 


Fi Cep) = 


(8-17) 


2P(c,)R(cp) 
Ple) +RCe,) 
开平 衡 了 精度 和 召回 率 的 相对 重要 性 ， 对 于 表 8-1 所 示 的 例子 ， 有 : 


2X1X0.5 _ azo 
140.5 ~67% 


(8-18) 


F, Cep) = 


宏 平 均 与 微 平均 FF， 

通过 计算 所 有 类 别 的 平均 F 值 ， 我 们 也 常常 赋予 分 类 器 一 个 唯一 的 书 值 。 在 文献 
[1743] 中 介绍 了 两 种 平均 函数 : 微 平均 F, (micro-average Fi, micF, ) 和 宏 平 均 Fl Cmac- 
ro-average F,, macF, ) 。 接 下 来 将 进行 具体 讨论 。 

宏 平均 F 计算 方法 为 ; 


ICI 
SI Filep) 
macF , = Ten (8-19) 
因此 ， 宏 平均 F 简单 地 对 所 有 类 别 的 FF 值 取 平均 。 


为 了 计算 微 平均 FI ， 我 们 需要 得 到 基于 所 有 类 别 的 精度 和 召回 率 ， 即 
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计算 出 全 局 精度 和 召回 率 之 后 ， 微 平均 F 的 计算 形式 为 : 


micF, = on (8-20) 


在 微 平均 F 中 ， 每 一 篇 文档 都 被 赋予 相同 的 重要 性 。 在 宏 平均 F 中 ， 每 一 个 类 别 都 被 
赋予 相同 的 重要 性 。 结 论 是 宏 平均 F 能 够 更 好 地 刻画 分 类 器 在 多 类 别 情 形 下 的 性 能 。 当 类 
别 分 布 非常 不 均匀 时 ， 这 一 点 是 十 分 重要 的 。 这 种 情况 下 ， 两 种 平均 指标 都 应 当 考 虑 。 


8.6.5 交叉 检验 


交叉 检验 (cross-validation) 已 经 成 为 对 分 类 结果 进行 统计 验证 的 标准 方法 [1140， 
1446]。 它 构建 个 不 同 的 分 类 器 ; VV Ve. ATR. RTS CAVIAR D 
分 割 为 & 个 不 相交 的 集合 CBT, fold), 每 折 的 大 小 为 ; Na Nast Na. DREW 将 大 
小 为 N。 的 第 i 折 作 为 测试 集 , D 中 剩余 的 、 大 小 为 N, 一 Na 的 文档 作为 训练 集 。 

每 个 分 类 器 都 用 相同 的 评价 指标 进行 独立 的 评测 ， 如 精度 、 召 回 率 或 fA. RAH 
计算 有 个 指标 的 平均 值 来 完成 交叉 检验 。 最 常用 的 & 值 为 10， 这 种 情况 通常 称 为 10 折 交 叉 
检验 (ten-fold cross-validation). 





8.6.6 标准 文档 集 


与 检索 评价 的 情况 类 似 ， 多 个 标准 文档 集 制 定 出 来 ， 用 于 进行 试验 和 分 类 技术 对 比 。 这 
些 标准 文档 集 的 应 用 认为 是 近年 来 文本 分 类 快速 发 展 的 主要 原因 之 一 。 在 下 面 的 内 容 中 ， 我 
们 将 介绍 一 些 最 常用 的 标准 文档 集 。 

1. Reuters-21578 

Reuters-21578 语料库 [337] 是 在 分 类 实验 中 使 用 最 为 广泛 的 文档 集 。 它 是 由 路 透 社 
(Reuters) 在 1987 年 的 新 闻 文 章 所 组 成 的 。 该 文档 集 被 划分 为 多 个 与 经 济 有 关 的 类 别 〈 如 
兼并 、 收 入 等 ) 。 有 一 个 叫做 ModApte 的 标准 划分 ， 将 9603 篇 文档 用 做 训练 ，3299 篇 文档 
用 做 测试 ， 共 有 90 个 类 别 在 训练 集 和 测试 集中 同时 出 现 。 许 多 研究 人 员 在 他 们 的 实验 中 只 
使 用 该 文档 集中 10 个 最 大 的 类 别 C183, 520, 838]. 在 训练 集中 ， 类 别 所 占 的 比例 从 
1.88% ~29. 96% 不 等 ; 在 测试 集中 ， 这 一 数据 为 1.7%% 一 32.95%% 。 

2. RCV: Reuters Corpus Volumes 

Reuters Corpus Volumes 1 (RCV1) 是 一 个 由 超过 800000 篇 人 工分 类 的 新 闻 专 线 报道 
所 组 成 的 参考 文档 集 ， 最 近 由 路 透 社 发 布 [1345]。 所 有 的 报道 被 组 织 成 103 个 主题 类 别 ， 
人 们 希望 能 够 用 该 集合 在 文本 分 类 实验 中 代替 前 面 提 到 的 Reuters-21578 文档 集合 ， 因 为 它 
相对 于 后 者 要 大 得 多 (大 约 35 倍 )， 而 且 非 常 可 靠 ， 也 更 加 干净 。RCV2[1346」 是 原始 发 
布 的 文档 集 的 一 个 改进 版 本 ， 将 其 中 的 一 些 错误 数据 进行 了 纠正 [1016], 

3. OHSUMED 参考 文档 集 

OHSUMED 文档 集 [750] 是 MEDLINE 数据 库 的 一 个 子 集 ， 由 美国 国家 医药 图 书馆 
(National Library of Medicine, NLM) 维护 的 授权 医疗 文献 所 组 成 。MEDLINE 数据 库 在 2009 
年 有 超过 1700 万 篇 文献 ， 每 篇 文献 都 包括 由 人 类 标注 的 医学 主题 词 (Medical Subject Head- 
ings，MeSH)。 使 用 的 医学 主题 词 表 包含 了 超过 17 000 个 医学 主题 词 。 
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OHSUMED 文档 集 由 在 1987—1991 年 期 间 ， 从 MEDLINE 数据 库 覆 盖 的 270 种 学 术 期 
刊 中 选择 出 来 的 348 566 篇 医学 文献 所 组 成 。 文 档 集 同样 包含 了 由 内 科 医 生 在 照顾 病人 过 程 
中 产生 的 101 个 查询 请 求 。 对 每 个 查询 结果 ， 有 三 种 可 能 的 相关 性 判断 : 绝对 相关 (defi- 
nitely relevant) 、 可 能 相关 (possibly relevant) 、 不 相关 (non-relevant), 

由 于 MEDLINE 文献 包含 医学 主题 词 ， 因 此 这 些 主 题词 可 以 解释 为 医学 类 别 ， 因 而 
OHSUMED 文档 集 就 非常 适用 于 文本 分 类 算法 的 评价 。 要 下 载 该 集合 ， 读 者 可 以 登录 站 点 
ftp; //medir. ohsu. edu/pub/ohsumed。 

4. 20 NewsGroups 

另 一 个 广泛 使 用 的 文档 集合 是 20 NewsGroupsL402]。 这 是 一 个 由 大 约 20 000 条 发 布 在 
Usenet 新 闻 组 上 的 消息 所 组 成 的 集合 。Usenet 可 以 近似 平均 地 分 为 20 个 不 同 的 新 闻 组 。 消 
息 的 类 别 即 是 其 所 属 的 新 闻 组 。 

5. 其 他 文档 

其 他 在 文本 分 类 文献 中 使 用 或 者 报告 的 文档 集 包 括 : WebKB 超 文本 集合 [401], 
ACM-DL (ACM 数字 图 书馆 的 一 个 子 集 )， 维 基 百 科 〈Wikipedia) URR Web 目录 ， 如 
Yahoo! 和 ODP. 


8.7 ”类别 组 织 一 一 构建 分 类 体系 


标注 能 够 为 每 个 类 别提 供 语义 信息 ， 非常 有 助 于 分 类 过 程 的 进行 。 然 而 ， 即 使 所 有 类 别 
都 已 经 进行 标注 ， 我 们 仍然 只 有 一 个 “扁平 ”的 类 别 空间 ， 因 为 还 没有 提供 类 别 的 组 织 结构 
信息 。 缺 乏 类 别 组织 信 息 会 导致 在 理解 和 推理 问题 上 的 诸多 限制 。 对 此 一 种 解决 方案 是 构建 
分 类 体系 (参考 6.7. 1 节 )。 例 如 图 8-21 对 于 我 们 在 本 章 前 面 所 使 用 的 例子 显示 了 针对 酒店 
的 分 类 体系 。 在 这 个 例子 中 ， 泛 化 是 基于 酒店 的 位 置 来 实现 的 ， 因 此 我 们 称 该 分 类 体系 是 地 
HARR (geo-referenced), 
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图 8-21 根据 地 理 参照 分 类 体系 构建 的 夏威夷 酒店 网 页 组 织 形式 
通常 分 类 体系 是 通过 人 工 或 者 非常 复杂 的 半自动 过 程 [1001] 构建 的 ， 如 图 8-22 所 示 。 


图 中 显示 的 五 个 步骤 可 以 分 解 为 以 下 更 小 的 任务 [1159]: 
1) 构建 一 个 能 够 表示 领域 知识 的 小 文档 集 ， 通 常 包含 1000 篇 左右 的 文档 。 
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2) 对 文档 进行 分 析 ， 对 其 内 容 进 行 描述 并 对 文档 分 组 。 

D 通过 与 领域 专家 进行 沟通 ， 明 确 需 要 为 之 构建 分 类 体系 的 用 户 的 信息 需求 。 
4) 确定 并 编制 领域 知识 中 的 概念 描述 (用 于 表示 类 别 )。 

D 识别 在 领域 知识 中 最 常用 的 语言 项 ， 如 名 词 和 名 词组 。 

6) 使 用 识别 出 的 索引 项 对 领域 知识 中 的 概念 进行 标注 ( 即 标 注 类 别 )。 

7) 根据 特 化 和 泛 化 的 关系 ， 层 次 化 地 组 织 标注 好 的 概念 。 

8) 建立 语言 的 等 价 关系 ， 如 同义词 。 

9) 与 用 户 一 起 测试 并 验证 分 类 体系 。 

10) 修正 并 最 终 确定 分 类 体系 。 


ked 





图 8-22 ”构建 分 类 体系 的 过 程 


每 个 步骤 都 需要 大 量 人 工 ， 如 果 分 类 体系 需要 构建 1000 一 2000 个 概念 ， 那 么 整个 过 程 
可 能 需要 数 个 星期 才能 完成 。 而 且 ， 即 使 在 无 法 预先 知道 有 哪些 类 别 的 情况 下 〈 甚 至 并 未 打 
算 构 造 分 类 体系 的 情况 下 ) ， 以 上 的 过 程 也 能 够 定义 特定 领域 知识 的 类 别 集合 。 这 是 有 用 的 ， 
因为 类 别 集合 是 将 文本 分 类 算法 应 用 于 未 知 的 、 新 领域 知识 的 先决 条 件 。 


尽管 有 人 可 能 希望 尝试 自动 构建 一 个 分 类 体系 ， 但 以 当前 的 发 展 水 平 来 看 ， 人 工 构建 的 - 


分 类 体系 会 有 更 好 的 质量 。 最 重要 的 是 ， 人 工 构建 的 分 类 体系 能 更 好 地 反映 用 户 的 信息 需求 
“毕竟 他 们 会 根据 自己 的 偏好 进行 输入 ) 。 分 类 体系 的 自动 构建 仍然 是 一 个 有 待 更 多 研究 与 发 
展 的 领域 。 

定义 了 某 个 知识 领域 的 分 类 体系 后 ， 文 档 集 合 中 的 文档 可 以 根据 其 概念 〈 或 者 类 别 ) 来 
进行 分 类 。 举 例 来 说 ， 对 于 医学 领域 ， 给 定 如 UMLS 这 样 的 医学 分 类 体系 后 ， 医 学 文档 集 
就 可 以 分 类 到 这 个 体系 中 ， 于 是 一 系列 所 需要 的 不 同类 型 的 信息 就 可 以 直接 给 出 答复 : 

。 从 上 个 月 开始 ， 哪 些 是 关于 心肌 手术 技术 的 文档 ? 

。 哪个 概念 KID 发 生 了 稀有 事件 (比如 新 文档 的 到 达 率 突然 改变 )? 

。 哪个 是 用 户 查 询 得 最 多 的 概念 ? 

。 描述 最 流行 的 查询 的 概念 模式 是 否 与 描述 最 近 发 表 的 文档 的 概念 模式 一 致 ? 

在 将 文档 根据 分 类 体系 分 类 之 后 ， 可 以 快速 地 对 许多 文档 集 和 查询 流 的 特征 进行 检查 和 
定量 分 析 。 分 类 体系 可 以 用 来 构建 某 个 给 定 知识 领域 的 知识 库 ， 从 而 增强 其 功能 性 并 且 更 好 
地 获取 领域 中 的 语义 信息 。 

尽管 我 们 这 里 讨论 的 文本 分 类 算法 没有 像 文献 [1032，1351] 那样 利用 分 类 体系 的 层次 
结构 而 对 算法 进行 调整 ， 但 这 些 算法 仍然 可 以 直接 用 于 将 文档 分 类 到 分 类 体系 里 所 定义 的 类 
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别 中 。 


8.8 趋势 和 研究 问题 


随 着 Web 和 其 他 数字 存储 形式 所 包含 数据 的 激增 ， 当 前 的 分 类 技术 面临 的 一 个 显著 挑 
战 是 可 伸缩 性 和 可 扩展 性 ， 以 便 能 够 处 理 日 益 增长 的 文档 、 越 来 越 庞 大 的 分 类 体系 以 及 其 固 
有 的 不 平衡 性 与 稀疏 性 。 比 如 ， 在 2004 年 的 Yahoo! 分 类 体系 中 ， 大 约 有 300 000 个 类 别 ， 
被 组 织 成 一 个 16 层 的 层次 结构 [1040]。 而 且 类 别 的 分 布 是 非常 不 均匀 的 一 一 在 大 约 800 000 
个 页 面 中 ， 拥 有 100 个 以 上 文档 的 类 别 不 到 1% 。 处 理 这 样 的 情况 显然 对 于 分 类 技术 来 说 是 巨 
大 的 挑战 。 使 用 链接 信息 进行 Web 文档 分 类 的 早期 工作 可 以 参考 文献 [312, 446]. 

其 他 有 待 于 更 多 研究 的 主题 包括 了 层次 分 类 和 多 标签 分 类 。 对 于 前 者 ， 分 类 器 需要 考虑 
类 别 之 间 的 关系 ， 相 比 于 忽略 层次 结构 信息 和 分 别 独 立地 处 理 每 个 类 别 的 方法 ， 它 能 获得 更 
好 的 性 能 。 类 似 地 ， 处 理 多 标签 分 类 问题 任务 的 常用 方法 是 简单 地 对 每 个 类 别 学 习 一 个 独立 
的 二 类 分 类 器 ， 而 不 是 利用 标签 之 间 的 依赖 关系 。 尽 管 已 经 有 了 一 些 不 局 限于 这 些 基 本 策略 
的 成 果 [521，1040，1634]， 但 仍然 存在 着 巨大 的 改进 空间 。 

另 一 个 值得 注意 的 问题 是 将 一 些 当 前 的 分 类 技术 应 用 到 某 些 新 颖 而 有 趣 的 领域 中 ， 如 
1) 情感 倾向 分 类 (sentiment classification), ， 即 判断 对 于 某 个 事物 的 特定 意见 是 正面 的 还 是 
负面 的 [1241]; D 流派 分 类 (genre classification), ， 即 对 特定 文档 所 属 的 性 质 、 类 别 和 风 
格 进 行 推 理 [998]; 3) 实体 解析 (entity resolution) [695，1254，1255]， 即 判断 两 个 实体 
引用 是 否 指 代 真实 世界 中 的 同一 个 实体 。 将 这 些 问题 本 身 固有 的 一 些 性 质 与 分 类 策略 结合 起 
来 ， 可 以 获得 比 单纯 使 用 分 类 技术 更 好 的 结果 。 另 一 个 非常 困难 的 任务 是 多 媒体 内 容 的 分 
类 ， 因 为 通过 自动 索引 的 方法 获取 富 媒 体 的 语义 信息 是 很 困难 的 。 

另 一 个 研究 方向 是 半 监 督 分 类 技术 (Csemi-supervised classification technique) ， 即 在 学 
习 过 程 中 同时 利用 未 标记 文档 和 一 小 部 分 标记 文档 [1207]。 比 如 可 以 通过 将 未 标记 文档 加 
人 到 训练 集中 ， 从 而 使 分 类 器 对 于 分 类 的 正确 性 有 更 高 的 置信 和 度 。 这 些 方法 的 动机 来 自 那些 
无 法 获得 足够 的 训练 数据 ， 或 者 获得 训练 数据 将 会 非常 昂贵 的 情景 。 

另 一 个 最 新 的 研究 方向 是 解决 文档 和 类 别 随时 间 演 变 的 问题 ， 因 为 知识 领域 总 是 在 不 断 
地 演化 。 .我 们 需要 制定 合理 的 策略 ， 能 够 较 好 地 在 选择 大 量 训练 文档 建立 分 类 模型 与 适应 时 
间 演 变 之 间 寻 找 一 个 合适 的 平衡 点 (470, 1160], 

最 后 ， 随 着 分 类 技术 在 文本 上 的 成 功 应 用 ， 最 新 的 研究 趋势 是 将 这 些 技术 (和 其 他 技 
AR) 应 用 到 为 文档 检索 任务 学 习 排 序 函 数 上 去 (HRA Learning to Rank 问题 )。 这 些 年 这 股 
势头 发 展 得 十 分 迅猛 ， 比 如 将 SVM 应 用 到 点 击 流 数据 的 偏好 学 习 上 [843]。 近 年 来 ， 发 表 
了 许多 关于 该 问题 的 研究 成 果 ， 比 如 在 近 些 年 的 SIGIR 会 议 中 [1308，1759，479，1632] 。 


8.9 文献 讨论 

两 个 最 早 将 决策 树 应 用 到 文本 分 类 上 的 结果 发 表 在 [1015，605] 中 。 在 决策 树 中 ， 处 
理 缺 失 值 或 者 未 知 值 的 问题 在 [595] 中 进行 了 讨论 。 决 策 树 同 样 是 集成 学 习 中 优先 选择 的 
方法 之 一 ， 主 要 是 boosting 算法 [1433, 1432]. 

将 & 近邻 应 用 到 文本 分 类 的 经 典 文献 是 [1095，1741]。 关 于 & 近邻 更 深层 次 的 讨论 和 
其 中 的 一 些 问 题 可 以 参考 文献 [712]。 其 他 用 于 文本 分 类 的 延迟 方法 〈 以 & 近 邻 为 基础 ) 近 
来 也 受到 关注 ， 并 取得 了 很 好 的 结果 [1633]. 

将 Rocchio 分 类 器 的 基本 形式 应 用 于 文本 分 类 的 结果 发 表 在 [797]. Schapire, Singer 
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和 Singhal 在 Singhal 早期 工作 [1485] 的 启发 下 ， 提 出 了 基于 查询 区 域 的 Rocchio 分 类 器 ， 
并 应 用 于 文本 分 类 任务 [1433]. 

关于 朴素 贝 叶 斯 在 文本 分 类 上 的 应 用 ， 有 一 个 很 好 的 讨论 ， 发 表 在 [1014] CHE 
[1446] 中 进行 了 总 结 ) 。 他 们 的 工作 同时 也 讨论 了 这 项 技术 的 未 来 发 展 方向 ， 比 如 放宽 独立 
性 假设 。 对 于 朴素 贝 叶 斯 文本 分 类 器 的 两 种 事件 模型 的 比较 发 表 在 [1105]， 结 果 说 明 包 含 
索引 项 频率 的 模型 ALUM, multinomial model) 几乎 总 是 会 比 不 考虑 这 一 信息 的 模 
型 〈( 称 为 伯 努 利 模型 Bernoulli model) 产生 更 好 的 结果 。 

有 一 本 书包 含 了 支持 向 量 机 的 基本 内 容 [1628]。JoachimsL838] 和 Dumais 等 人 [520] 
最 早 将 支持 向 量 机 应 用 到 文本 分 类 中 ， 而 且 在 他 们 的 工作 中 支持 向 量 机 都 取得 了 比 其 他 基线 
更 好 的 结果 。Yang 和 Liul1743] 以 及 其 他 人 同样 证 实 了 支持 向 量 机 可 以 取得 当前 最 好 的 性 
能 水 平 。 将 支持 向 量 机 实际 应 用 于 大 规模 数据 集 (比如 文本 文档 集 ) 的 工作 在 [839] 中 进 
行 了 讨论 。 最 近 的 一 个 重要 结果 发 表 在 [843]， 它 描述 了 一 种 能 够 在 线性 时 间 内 训练 线性 支 
持 向 量 机 的 方法 ， 因 此 大 大 提高 了 其 效率 和 对 大 规模 数据 集 的 可 扩展 性 。 多 类 支持 向 量 机 的 
构想 发 表 在 [1680，436]， 对 方法 所 进行 的 比较 发 表 在 [781]. 

许多 工作 都 报告 了 将 集成 学 习 分 类 器 应 用 于 文档 分 类 的 结果 。Yang 等 人 [1742] 使 用 
了 一 种 将 三 个 不 同类 型 的 分 类 器 (k 近邻 、Rocchio 和 基于 语言 模型 的 分 类 器 ) 的 归 一 化 输 
出 结果 进行 线性 合并 的 方法 。 分 类 器 的 参数 通过 验证 集 进行 调整 ， 最 后 应 用 于 测试 集 ， 产 生 
了 很 好 的 结果 。 在 文献 [979] 中 ， 作 者 将 三 种 不 同 的 分 类 器 进行 了 线性 加 权 合 并 ， 其 中 权 
重 是 基于 每 个 分 类 器 在 验证 集 上 的 性 能 进行 调整 的 。 他 们 同样 测试 了 几 种 将 两 个 分 类 器 合并 
的 方法 〈 称 为 两 路 合并 ) ， 以 及 一 个 三 路 合并 方法 。 所 有 两 路 合并 的 方法 都 取得 了 比 单一 分 
类 器 更 好 的 结果 ， 而 三 路 合并 又 获得 了 比 所 有 两 路 合并 更 好 的 结果 。 不 过 他 们 使 用 的 测试 集 
非常 小 。 

Li 和 JainL1022] 使 用 了 一 种 基于 四 个 分 类 器 (包括 了 近邻、 朴素 贝 叶 斯 和 决策 树 》 
的 集成 学 习 方法 ， 并 使 用 了 三 种 不 同 的 合并 方式 ，1) 简单 的 多 数 投票 ，2) 动态 分 类 器 选择 
(DCS) [1721, 624]; 3) 自 适应 分 类 器 合并 〈ACC) 。 在 动态 分 类 器 选择 (Dynamic Classi- 
fier Selection, DCS) 方法 中 ， 集 成 分 类 器 中 的 一 个 《对 于 与 给 定 文档 d 最 相似 的 文档 有 最 
好 的 相对 分 类 性 能 的 那 一 个 ) 被 选择 用 于 对 d; 进行 分 类 。 在 自 适应 分 类 器 合并 (Adaptive 
Classifier Combination, ACC) 方法 中 ， 每 个 分 类 器 的 预测 结果 通过 加 权 和 人 合并， 其 中 权重 
为 每 个 分 类 器 的 相对 性 能 〈 对 与 文档 d 最 相似 的 文档 进行 分 类 时 ) 的 函数 。 最 后 一 种 是 最 
好 的 合并 方法 。Lam 和 Lai 提出 了 一 种 略微 不 同 的 方法 [969]， 他 们 使 用 训练 集中 类 别 的 一 
些 特殊 特征 《如 训练 样本 个 数 、 平 均 文档 长 度 和 平均 索引 项 权重 〉 学习 这 些 特 征 与 分 类 错误 
之 间 的 关系 。 这 样 就 能 针对 每 个 特定 的 类 别 选 择 不 同 的 算法 。 在 著名 文档 集 Reuters-21578 
(参考 8. 6 节 ) 上 的 实验 证 明 ， 集 成 分 类 器 与 所 有 成 分 相 比 ， 在 性 能 上 都 得 到 了 提高 。 

最 早 将 boosting 应 用 于 文本 分 类 的 工作 发 表 在 [1433，1432]。 这 里 的 集成 分 类 器 由 单 
层 决 策 树 组 成 ， 在 树 根部 的 测试 是 简单 地 检查 某 个 索引 项 在 文档 中 是 否 出 现 。boosting 方法 
的 四 个 变 体 发 表 在 [1432]。 这 四 种 方法 中 的 三 种 ， 我 们 称 为 AdaBoost. MH。 这 一 方法 的 
目的 是 最 小 化 分 类 错误 (BHAA, Hamming loss[1432]) 。 对 于 第 四 种 ， 我 们 称 为 Ada- 
Boost. MR。 这 一 方法 的 目的 是 最 小 化 排序 错误 ， 即 为 多 个 标签 确定 其 最 正确 的 排序 。 
Sebastiani 等 人 [1447] 扩展 并 改进 了 AdaBoost. MH 的 思路 ， 其 中 的 弱 假设 不 再 是 一 个 学 
习 器 ， 而 是 一 个 集成 分 类 器 或 者 一 组 弱 分 类 器 。 这 样 的 方法 可 以 提高 算法 的 可 用 性 和 效率 。 
无 论 是 原始 的 版 本 ， 还 是 Sebastiani 的 改进 版 本 ， 都 可 以 通过 连续 属性 的 离散 化 进行 扩展 ， 
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从 而 进一步 改进 该 算法 [1172]. 

两 个 将 登 加 技术 (stacking) 应 用 到 文本 特性 描述 的 例子 发 表 在 [249] 和 [183]. 在 
第 一 个 工作 中 ， 通 过 将 多 个 对 文档 的 不 同 结 构成 分 和 文档 全 文 进行 训 练 的 分 类 器 (包括 材 素 
贝 叶 斯 和 支持 向 量 机 ) 的 预测 结果 合并 起 来 的 方式 ， 使 用 stacking 来 对 半 结 构 化 的 文档 进行 
分 类 。 线 性 SVM 用 于 元 分 类 。Bennett 等 人 [183] 在 分 类 器 的 预测 结果 之 外 ， 还 使 用 了 可 
靠 性 指标 (reliability indicator) 即 考虑 分 类 器 在 不 同情 况 下 的 性 能 因素 ， 包 括 文档 的 
信息 量 、 分 类 器 预测 结果 对 于 证 据 改变 的 敏感 程度 ， 以 及 某 些 关于 预测 结果 的 简单 统计 量 
(如 一 致 率 )。 他 们 使 用 了 决策 树 和 支持 向 量 机 作为 元 分 类 器 。 在 这 些 研究 中 ， 和 集成 分 类 器 几 
乎 在 所 有 情形 下 都 得 到 了 有 竞争 力 的 结果 〈 大 多 数 情 况 下 取得 了 比 单个 成 分 更 好 的 结果 ) 。 

已 经 存在 了 若干 个 用 于 构建 决策 树 的 软件 包 ， 如 ID3[1311]、C4. 5[1313]、C5[1398]。 
SVMLight[839] 和 LibSVM[355] 是 两 种 最 常用 的 SVM 工具 包 。SVMPerf 工具 包 [840] 
包含 了 在 [843] 中 描述 的 线性 方法 的 实现 。 最 后 ，BowL1104] 和 Wekal1707] 是 两 个 非常 
流行 的 工具 包 ， 包 含 了 许多 本 章 介绍 过 的 方法 。 

这 些 技术 的 大 多 数 前 沿 进展 〈 或 者 新 技术 ) ， 不 限于 文本 分 类 ， 一 般 发 表 在 机 器 学 习 和 
数据 挖掘 的 会 议 上 ， 如 International Conference on Machine Learning (ICML) 和 ACM 
SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD) 。 将 
这 些 方法 应 用 到 文本 上 的 实验 ， 以 及 其 他 与 文本 分 类 有 关 的 前 沿 工作 ， 主 要 发 表 在 SIGIR 

和 CIKM 会 议 上 。 
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9.1 介绍 
检索 系统 的 主要 目的 是 帮助 用 户 找到 他 们 感 兴趣 的 信息 。 它 的 目标 是 提高 有 效 性 
(effectiveness)， 即 最 大 化 用 户 的 满意 度 与 他 们 所 付出 的 努力 之 间 的 比值 。 本 章 将 关注 检索 
的 男 一 个 方面 ， 效 率 (efficiency)。 我 们 将 查看 检索 系统 的 一 些 实现 方法 ,它们 能 够 用 尽 可 
能 少 的 计算 资源 (如 CPU 或 耗 时 )、L/O 时 间 、 网 络 带 宽 、 内 存 空间 、 硬 盘 空 间 等 来 处 理 用 
户 的 查询 。 
尽管 相 比 于 有 效 性 ， 效 率 可 能 只 是 次 要 考虑 的 问题 ， 但 它 在 检索 系统 的 设计 中 几乎 无 法 
被 忽略 。 以 每 次 只 服务 一 个 人 、 仅 管理 1000 本 书 的 小 型 图 书馆 系统 为 例 ， 在 办 公 室 的 墙 边 
堆 满 书架 通常 就 足够 容纳 这 么 多 书 。 现 在 假设 每 本 书 以 电子 形式 占 700KB， 那 么 所 有 的 文 
本 就 占用 700MB。 在 这 个 文档 集中 简单 地 查找 一 个 词 ， 如 果 是 在 现代 台式 计算 机 上 ， 使 用 
公开 的 一 些 序列 搜索 工具 ， 如 grep， 而 且 假 设 整个 文档 集 能 够 放 在 内 存 中 ， 那 么 这 个 查询 
在 不 同 机 器 上 将 花费 1 一 10 秒 。 考 虑 到 现在 适度 规模 的 图 书馆 已 经 增长 到 10 000 本 书 ， 存 
储 为 电子 形式 需要 7GB 的 空间 ， 因 此 不 可 能 再 完全 放 到 内 存 中 ， 那 么 查询 将 花费 两 三 分 钟 。 
无 论 检 索 模型 是 多 么 有 效 ， 查 询 界面 是 多 么 别致 ， 如 果 用 户 等 待 一 个 查询 需要 2 分 钟 ， 那 还 
ETACABEMN. 
这 个 例子 说 明 ， 大 多 数 检索 系统 在 设计 时 必须 考虑 效率 。 而 且 ， 当 我 们 转移 到 大 规模 应 
用 时 ， 相 对 于 有 效 性 ， 效 率 变 得 越 来 越 重要 。 例 如 ， 在 索引 TB 级 别 的 数据 并 每 秒 服务 数 十 
万 查询 的 Web 搜索 引 敬 中， 效率 关乎 生存 的 重要 性 ， 因 此 只 能 使 用 最 简单 的 提高 有 效 性 的 
技术 。 换 名 话说 ， 为 了 能 够 运行 更 好 的 搜索 算法 ， 有 必要 实现 更 加 复杂 的 技术 来 提高 有 
效 性 。 
正如 之 前 所 说 的 例子 ， 序 列 搜索 是 搜索 的 最 基本 的 形式 。 它 不 需要 建立 或 者 维护 文本 结 
构 。 但 是 ， 正 如 已 经 说 明 的 ， 这 通常 只 在 有 限 的 一 部 分 情况 当中 才 具 有 实用 性 。 然 而 ， 我 们 
稍 后 会 展示 它 的 相对 重要 性 。 
在 大 多 数 实际 情况 中 ， 索 引 (index) 是 必须 使 用 的 。 索 引 是 建立 在 文本 上 的 一 种 数据 
结构 ， 用 于 加 快 搜索 速度 。 维 护 和 处 理 索引 要 比 运 行 序列 搜索 复杂 得 多 ， 但 是 在 大 多 数 情 况 
下 ， 这 是 能 够 得 到 可 接受 的 响应 时 间 的 唯一 办 法 。 在 使 用 索引 的 检索 系统 中 ， 系 统 的 效率 可 
以 用 如 下 方式 来 衡量 ; 
。 索引 时 间 : 建立 索引 所 需 的 时 间 。 这 里 我 们 可 以 测量 所 有 花费 的 时 间 ， 或 者 可 以 分 
开 考 虑 CPU 时 间 、I/O 时 间 等 。 通 常 来 说 ， 索 引 时 间 与 文本 大 小 是 线性 关系 。 

。 索引 空间 : 生成 索引 时 所 使 用 的 空间 。 这 个 可 以 通过 在 建立 索引 时 需要 的 最 大 空间 
来 衡量 。 通 常 ， 它 与 被 索引 文本 的 大 小 是 线性 关系 。 

。 索引 存储 : 当 索 引 生 成 以 后 ， 保 存 索引 所 需要 的 空间 。 目 标 是 最 后 的 索引 存储 空间 
应 该 是 文本 总 大 小 的 一 小 部 分 ， 而 且 它 应 该 比 在 索引 过 程 中 需要 的 空间 小 得 多 。 

。 FANE: 从 查询 到 达 检 索 系 统 与 答案 生成 之 间 的 时 间 间 隔 。 平 均 时间 是 更 常用 的 
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指标 ， 但 考虑 一 定 百分比 的 查询 (如 90% 的 查询 ) 的 最 大 时 间 也 可 能 是 重要 的 。 注 
意 ， 我 们 并 没有 包括 用 户 可 能 会 体验 到 的 任何 其 他 时 延 ， 如 在 Web 检索 系统 中 ， 发 
出 查询 请 求 后 与 看 到 答案 前 的 网 络 时 延 。 

。 SHAME: 每 秒 钟 处 理 的 平均 查询 数目 。 它 直接 根据 查询 时 延 来 计算 。 

在 附录 A 中 ， 我 们 比较 了 几 个 开源 的 搜索 软件 包 〈 搜 索引 警 ) ， 它 们 采用 了 很 多 这 样 的 
效率 指标 。 

尽管 这 些 是 主要 的 性 能 指标 ， 但 还 有 其 他 一 些 重要 的 考量 。 当 一 个 文本 更 新 后 ， 任 何 建 
立 在 它 之 上 的 索引 也 必须 更 新 。 如 果 文 档 集 十 分 易 变 〈 也 就 是 说 ， 经 常 改 变 )， 那 么 这 就 不 
怎么 实用 了 。 现 在 的 索引 技术 并 不 能 很 好 地 支持 经 常 改变 的 文档 集 。 相 反 ， 它 们 可 以 处 理 所 
谓 的 半 静 态 文 档 集 (semi-static collection) ， 这 些 文档 集 以 合理 的 固定 时 间 间 隔 更 新 〈 如 每 
天 ) 。 大 多 数 实际 的 文档 集 ， 包 括 Web， 实 际 上 都 是 半 静 态 的 。 比 如 说 ， 尽 管 Web 变化 得 十 
分 快 ， 但 是 搜索 引擎 的 候 取 相对 较 慢 。 为 了 维持 新 鲜 度 ， 常 会 使 用 增 量 索引 。 

对 一 个 经 常 改变 的 文档 集 维持 很 高 的 新 鲜 度 是 可 能 的 ， 除 了 在 当前 索引 上 检索 外 ， 还 要 
对 最 近 一 次 索引 之 后 获取 的 文档 进行 序列 搜索 。 如 果 在 连续 两 次 索引 更 新 之 间 增 加 到 文档 集 
中 的 新 文本 数目 不 是 很 大 的 话 ， 那 么 这 种 方法 是 可 行 的 。 另 一 种 解决 方案 是 为 新 文本 建立 一 
个 较 小 的 索引 ， 然 后 在 每 次 查询 时 检索 两 个 索引 。 

此 外 ， 当 考虑 索引 方法 时 ， 需 要 把 索引 所 占用 的 额外 空间 考虑 进去 。 为 了 减 小 占用 的 空 
间 ， 许 多 索引 方案 在 内 部 工作 时 采用 序列 搜索 。 

我 们 首先 讨论 最 常用 的 加 快 检 索 速 度 的 索引 技术 : 基本 倒 排 索引 。 许 多 模型 使 用 这 种 索 
引 来 实现 检索 ， 如 简单 的 布尔 模型 ， 在 传统 检索 系统 中 使 用 最 多 的 排序 模型 向 量 模型 ， 
还 有 经 典 的 概率 模型 ， 以 及 大 多 数 基于 词 频 对 文档 排序 的 其 他 模型 ( 见 第 3 章 ) 。 

我 们 还 要 讨论 用 于 全 文 检索 的 倒 排 索引 。 在 这 种 情况 下 的 任务 是 找到 词语 在 文档 集中 的 
所 有 记录 (occurence)， 这 里 的 “记录 ”可 以 定义 为 词 所 出 现 的 文档 。 它 可 能 还 需要 确定 词 
在 文档 中 出 现 的 位 置 。 然 后 我 们 继续 讨论 如 何 用 倒 排 索引 处 理 更 多 复杂 的 搜索 , 复杂 的 模 
式 、 和 短语、 布尔 查询 和 结构 化 查询 。 对 于 复杂 的 模式 ， 我 们 使 用 7. 1. 2 节 所 讲 的 语言 ， 该 语 
AAEM., FAX (class of character) ， 甚 至 正则 表达 式 ， 匹 配方 式 可 以 是 精确 的 或 者 
容错 的 。 

我 们 接 下 来 讨论 让 索引 支持 排序 ， 这 相当 于 根据 检索 结果 的 相关 度 对 它们 进行 排序 。 因 
为 对 所 有 的 管 案 都 这 么 处 理 的 代价 比较 大 ， 所 以 我 们 专注 于 怎样 获得 最 好 的 个 结果 OCR 是 
一 个 合适 的 较 小 的 值 )。 我 们 还 会 讨论 索引 压缩 ， 介 绍 压 缩 的 倒 排 索引 如 何 能 够 正常 运作 ， 
而 且 比 正常 的 形式 占 更 少 的 空间 。 

在 倒 排 索引 上 解决 复杂 模式 的 查询 涉及 在 文档 集 的 词汇 表 上 进行 序列 扫描 。 此 外 ， 序 列 
搜索 算法 对 于 解决 短语 查询 是 必要 的 ， 它 还 可 以 在 界面 中 加 亮 显 示 出 现 的 记录 。 这 就 说 明了 
序列 搜索 算法 的 重要 性 ， 即 使 是 在 索引 检索 中 。 序 列 搜索 算法 将 在 本 章 的 后 面 介绍 。 

接 下 来 ， 我 们 会 描述 后 缀 树 和 后 缀 数组。 它们 也 是 全 文 检索 的 索引 ， 比 倒 排 索引 更 加 强 
大 ， 也 更 难 维护 。 例 如 ， 后 缀 数组 能 比 倒 排 索引 更 快 地 搜索 长 短语 。 此 外 ， 人 能够 在 任何 种 类 
的 文本 上 建立 后 缀 数组 ， 不 仅仅 是 那些 由 词语 组 成 的 文本 。 这 使 得 它 适合 处 理 像 中 文 、 日 文 
和 韩文 这 些 很 难 分 词 的 语言 。 甚 至 像 芬 兰 语 和 德语 这 种 黏着 语 在 使 用 基于 词 的 模型 时 也 会 有 
问题 。 而 且 ， 后 缀 数组 能 够 用 于 其 他 没有 词语 的 应 用 ， 如 计算 生物 学 和 音乐 检索 。 我们 还 会 
讨论 压缩 的 后 缀 数组 ， 它 们 比 正常 的 形式 占用 更 少 的 空间 。 

然后 ， 我 们 简要 地 讨论 签名 文件 (signature file)。 尽 管 如 今 签名 文件 在 大 规模 系统 中 
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很 显然 不 可 能 与 倒 排 索引 相 抗衡 ， 但 在 分 布 式 应 用 中 它 仍 可 能 是 有 用 的 ， 在 这 些 应 用 中 需要 
有 一 个 快速 小 巧 的 过 滤器 来 确定 在 远程 的 索引 上 是 否 存在 一 个 潜在 的 匹配 。 

在 此 之 后 ， 我 们 描述 一 些 序列 搜索 算法 ， 从 简单 的 字符 串 搜 索 到 基于 正则 表达 式 和 近似 
模式 匹配 的 更 复杂 的 搜索 。 我 们 还 将 讨论 搜索 和 压缩 之 间 的 关系 。 这 与 6. 8 节 有 所 联系 ， 在 
6. 8 节 中 我 们 描述 了 压缩 算法 以 及 它们 在 搜索 单个 词 模 式 中 的 应 用 。 

我 们 还 加 入 了 介绍 多 维 索引 的 一 小 部 分 内 容 ， 也 就 是 说 ， 从 多 个 维度 建立 索引 ， 而 不 仅 
仅 是 像 文本 的 一 个 维度 。 尽 管 搜索 多 个 维度 的 可 扩展 性 仍然 是 个 问题 ， 但 这 还 将 继续 是 搜索 
多 媒体 内 容 的 主要 技术 。 本 章 的 最 后 是 索引 和 搜索 文档 集 方面 当前 的 趋势 和 研究 热点 。 

本 章 自 始 至 终 假设 读者 熟悉 基本 的 数据 结构 ， 如 排序 数组 、 二 分 查找 树 、B 树 、 散 列表 
和 trie 树 。 因 为 trie 树 在 本 章 中 使 用 得 较 多 ， 所 以 9.4 节 对 其 加 以 简单 的 介绍 。 


9.2 倒 排 索引 


9.2.1 基本 概念 


倒 排 索引 《也 称 为 倒 排 文 件 ) 是 一 个 为 了 索引 文档 集 、 加 快 搜索 任务 的 面向 词 的 方案 。 
倒 排 索引 结构 由 两 个 元 素 组 成 : 词汇 表 (vocabulary) (或 叫做 词典 ) 和 记录 Coccurrence). 
词汇 表 是 指 在 文本 中 出 现 的 所 有 不 同 词 的 集合 。 对 于 词汇 表 中 的 每 个 词 ， 索 引 保存 了 所 有 包 
会 这 个 词 的 文档 。 因 为 这 个 原因 ， 它 叫做 倒 排 索引 ， 因 为 我 们 能 够 用 索引 来 重建 文档 。 这 是 
如 今 主要 的 索引 结构 ， 也 是 最 古老 的 。 

表示 包含 词汇 表 中 每 个 词语 的 文档 的 最 简单 的 方式 是 使 用 矩阵， 其 中 的 每 个 单元 是 词语 
在 文档 中 出 现 的 次 数 一 一 即 第 3 章 介 绍 的 项 -文档 矩阵 。 如 图 9-1 所 展示 的 项 -文档 矩阵 ， 对 
应 于 图 3-6 的 文档 集 。 这 种 简单 的 表示 十 分 快速 ， 只 要 访问 一 次 矩阵 就 可 以 知道 文档 是 否 包 
含 某 个 词 。 如 果 使 用 布尔 模型 ， 我 们 甚至 不 需要 知道 词语 在 每 篇 文档 中 出 现 的 次 数 。 在 这 种 
情况 下 ， 表 示 索 引 项 是 否 出 现在 文档 中 的 布尔 矩阵 就 足够 了 。 
ad, | d; 





倒 排 表 形式 的 记录 
[1,41.[2.2] 
[1.21,[3.3],[4.3] 





| 





[L2].12.2].[3.2].[4.2] 
[2.1] 


[2.1] 
[2,21.[3,2] 
[2,2].[3,1] 
[2,1] 
[3.1] 
[3.1] 
[4.3] 
[4.2] 
[4.2] 
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图 9-1 对 应 图 3-6 所 示 文 档 集 的 基本 倒 排 索引 和 项 -文档 矩阵 。 每 个 矩阵 单元 表示 项 在 文档 中 
的 频率 。 注 意 ， 词 汇 表 保存 了 项 k 所 出 现 的 文档 的 数目 n;; 在 矩阵 中 ， 数 字 是 0 的 单 
元 用 “-” 赫 代 以 提高 可 读 性 。 在 右边 ， 项 -文档 矩阵 由 倒 排 表 所 替代 ， 它 的 单元 是 由 
包含 该 项 的 文档 和 对 应 的 项 频 组 成 的 


这 个 简单 的 解决 方案 的 主要 问题 是 它 需 要 太 多 的 空间 与 文档 数目 和 词汇 表 大 小 的 乘积 
成 正比 )。 因 为 这 是 个 稀疏 和 抢 阵 〈 大 多 数 文档 仅 包 含 词汇 表 的 一 小 部 分 )， 所 以 解决 的 办 法 就 


339 


340 


250 - 第 9 章 索引 和 搜索 


是 把 一 个 文档 列表 与 每 个 词 联 系 起 来 。 所 有 这 些 文档 列表 的 集合 叫做 “记录 ”，。 图 9-1 的 右 
边 是 相同 例子 的 倒 排 表 。 所 使 用 的 空间 与 文档 中 词语 的 记录 成 正比 ， 这 比 文档 的 大 小 要 小 
得 多 。 

到 目前 为 止 ， 倒 排 索 引 还 是 用 于 定位 词语 出 现 的 所 有 文档 ， 而 不 是 根据 某 些 排序 模型 找 
到 最 可 能 相关 的 文档 。 为 了 定位 文档 ， 倒 排 表 以 文档 顺序 排序 是 有 好 处 的 ， 即 使 这 个 顺序 实 
际 上 是 任意 的 。 例 如 ， 我 们 可 以 使 用 一 个 全 局 的 排序 方案 ， 并 以 那样 的 顺序 遍历 文档 〈 当 排 
序 变 化 时 动态 地 维护 这 个 遍历 过 程 )。 比 如 ， 我 们 可 以 使 用 一 个 基于 TF-IDF 的 排序 ， 把 文 
档 中 所 有 不 同 词 的 值 加 起 来 ， 或 者 在 网 页 上 我 们 可 以 使 用 基于 Page-Rank 的 排序 CL 
11.5.2 节 )。 

为 了 实现 向 量 模 型 和 第 3 章 提 到 的 其 他 一 些 模型 ， 我 们 需要 将 倒 排 表 的 顺序 变 成 按照 频 
率 降 序 的 方式 。 通 常 ， 我 们 可 能 以 降序 保存 每 个 索引 项 -文档 对 的 权重 ， 而 不 是 保存 在 每 个 
文档 中 出 现 的 次 数 。 这 个 变种 叫做 面向 排序 的 倒 排 索 引 ， 将 在 9. 2. 4 节 中 介绍 。 


9.2.2 完全 倒 排 索引 


我 们 上 面 所 讨论 的 基本 索引 并 不 适合 回答 短语 或 者 邻近 查询 (proximity query), AW 
它 不 包含 每 个 词 在 文档 中 出 现 的 确切 位 置 的 信息 。 因 此 ， 我 们 需要 把 每 个 词 在 每 篇 文档 中 的 
位 置 加 到 索引 中 去 。 这 个 位 置 指向 词 或 者 字符 。 词 位 置 (如 位 置 i 表示 第 i 个 词 ) WTR 
语 和 邻近 查询 ， 而 字符 位 置 〈 如 位 置 1 表 示 第 i 个 字符 ) 便于 直接 得 到 匹配 文本 的 位 置 ， 如 
用 于 展示 文本 片段 (snippet) (文本 片段 是 来 自 文档 的 一 小 段 文本 ， 包 含 全 部 或 部 分 查询 ) 。 
这 样 的 倒 排 索引 通常 叫做 完全 倒 排 索引 (full inverted index), K 9-2 展示 了 一 篇 文本 的 情 
况 ， 每 个 项 的 记录 用 它 在 文本 中 的 字符 位 置 来 表示 。 


1 4 12 18 21 24 35 43 50 54 64 67 77 83 
[In theory,there is no difference between theory and practice.In practice,there is. 

























文本 
between 
difference 
practice 
theory 
词汇 表 记录 
图 9-2 样 例文 本 和 在 此 之 上 建立 的 完全 倒 排 索引 。 禁 用 词 并 未 被 索引 。 记 录 指 向 的 是 文本 中 
的 字符 位 置 


在 多 个 文档 的 情况 下 ， 我 们 需要 为 每 个 项 -文档 对 保存 一 份 记录 列表 。 对 图 9-1 中 的 那 
个 例子 ， 图 9-3 展示 了 这 种 情况 ， 每 个 项 的 记录 用 文本 中 的 词 位 置 来 表示 。 在 每 个 列表 中 ， 
第 一 个 数字 表示 文档 的 编号 ， 第 二 个 数字 是 项 在 文档 中 出 现 的 次 数 。 保 存 一 份 完全 倒 排 索引 
所 需要 的 空间 将 与 所 有 记录 的 数目 成 正比 ， 因 此 也 就 与 文档 的 大 小 成 正比 。 用 词 位 置 ， 而 不 
是 字符 位 置 ， 能 够 将 所 使 用 的 空间 至 少 减 少 到 1/3， 所 以 更 推荐 这 种 方法 。 去 除 禁 用 词 同样 
能 够 减少 一 半 的 空间 大 小 ， 因 为 这 些 词 出 现 的 次 数 大 约 占 50%， 而 去 除 禁用 词 通常 不 会 改 
变 排 序 ， 反 而 会 提高 检索 的 效果 。 在 我 们 的 例子 中 ， 禁 用 词 的 出 现 次 数 要 超过 所 有 记录 的 一 
Æ. 6 6 节 介绍 的 另外 一 些 文本 转换 方法 也 可 以 减少 记录 的 数目 。 


O ”在 一 些 较 老 的 论文 中 ， 你 可 能 会 发 现 用 记录 列表 《posting list) 和 记录 文件 (posting file) 来 指 这 个 集合 。 
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n, 完全 倒 排 表 形式 的 记录 
[1,4,[1,4,6,911,[2,2,[1,5]] 
[1,2,[2,10]],[3,3,[6,8,10]],[4,3,[1,2,3]] 
[1,2,[3.8]] 
[1.2,[5,7]],[2,2,[2,6]],(3,2,[7,9]],[4,2,[9,12]] 
[2,1,13]] 

[2,1,{4]] 

[2,2,[7,10]],[3,2,[1,4]] 
[2,2,8,11]],[3,1,[5]] 

[2,1,[9]] 

[3,1,[2]] 

[3,1,[3]] 

[4,3,[4,5,6]] 

[4,2,[7,10]] 

[4,2,[8,11]] 





therefore 
da 
let 
it 


一 











图 9-3 全 文 倒 排 索引 一 一 索引 项 记录 以 在 列表 中 的 列表 形式 表示 ， 位 置 用 的 是 词 位 置 


有 些 作 者 会 区 分 倒 排 索引 《或 文件 ) 和 倒 排 表 。 在 倒 排 索引 中 ， 列 表 中 的 每 个 元 素 指向 
一 个 文档 或 者 文件 名 (最初 的 简单 情况 )， 而 倒 排 表 和 这 里 的 完全 倒 排 索引 的 定义 是 一 致 的 。 
我 们 倾向 于 不 区 分 这 两 者 ， 正 如 我 们 接 下 来 会 看 到 的 ， 这 是 一 个 寻 址 颗粒 度 (addressing 
granularity) 的 问题 ， 它 的 范围 可 以 是 从 文本 位 置 到 逻辑 块 。 而 且 我 们 更 想 称 之 为 倒 排 索 
引 ， 而 不 是 倒 排 文 件 ， 因 为 文本 并 不 一 定 只 是 一 个 文件 。 为 了 区 分 颗粒 度 ， 我 们 使 用 单词 寻 
址 或 者 文档 寻 址 的 倒 排 索引 。 注 意 ， 如 果 每 个 文档 都 保存 在 一 个 文件 中 ， 那 么 文件 寻 址 就 相 
当 于 文档 寻 址 。 通 常 ， 我 们 更 喜欢 使 用 文本 的 逻辑 结构 ， 而 不 是 物理 结构 〈 如 文件 ) 。 

词汇 表 所 需要 的 空间 是 相当 小 的 。 根 据 Heaps EM 〈 见 6. 5.2 节 )， 词 汇 表 以 O) 增 
长 ， 这 里 的 = 是 文档 集 的 大 小 ，8 是 一 个 依赖 于 文档 集 的 常数 ， 实 际 应 用 中 是 0. 4 一 0.6。 例 
W, Æ TREC-3 文档 集中 ，1GB 文本 的 词汇 表 只 占用 OMB 的 空间 ， 即 V ~158 V1iGb。 这 
个 空间 可 以 通过 6. 6 节 介 绍 的 词 于 提取 或 其 他 规范 化 技术 进一步 地 减 小 。 

记录 需要 更 多 的 空间 。 因 为 在 单词 寻 址 索引 中 ， 每 个 出 现在 文本 中 的 词 都 会 被 引用 一 
次 ， 这 个 额外 的 空间 将 是 OC) 级 的 ， 去 掉 禁 用 词 后 大 概 是 文本 大 小 的 40% ， 而 如 果 也 对 禁 
用 词 索 引 的 话 将 达到 80% 。 文 件 寻 址 索引 相对 小 一 些 ， 因 为 对 于 一 个 词 ， 每 个 出 现 它 的 文 
件 只 需要 记录 一 次 。 根 据 文件 大 小 的 不 同 ， 文 件 寻 址 索引 通常 需要 20% ~ 40% KAKA) 
的 空间 。 注 意 ， 文 件 寻 址 的 倒 排 索引 对 于 找 出 单词 出 现 的 文件 是 方便 的 ， 但 是 无 法 解决 短语 
或 邻近 查询 ， 也 不 能 在 没有 进行 序列 扫描 的 情况 下 定位 记录 在 文本 中 的 上 下 文 。 

块 寻 址 (block addressing) 技术 被 用 来 减 小 空间 占用 。 所 有 文档 的 文本 被 分 割 成 块 ， 
记录 指向 词语 所 出 现 的 块 ( 而 不 是 确切 的 位 置 )。 注 意 ， 简 单 倒 排 索 引 和 把 整个 文档 当做 块 
来 使 用 是 等 同 的 ， 通常 为 了 方便 管理 块 ， 块 之 间 的 边界 应 该 与 逻辑 或 者 物理 边界 (如 文档 或 
者 文件 ) 相 一 致 。 

块 寻 址 使 得 指针 更 小 ， 因 为 它 的 数目 比 位 置 少 。 而 且 ， 所 有 在 同一 块 中 的 词 的 记录 都 缩 
减 成 一 个 块 引用 〈 见 图 9-4)。 运 用 这 种 技术 ， 索 引 只 占 文本 大 小 的 5%。 这 样 做 的 代价 是 ， 
如 果 需 要 知道 词语 出 现 的 确切 位 置 〈 如 对 于 邻近 查询 )， 那 么 必须 在 匹配 的 块 上 进行 在 线 搜 
索 。 例 如 ， 有 256 个 块 的 块 寻 址 索引 在 数 百 兆 字 节 的 文本 上 就 无 法 很 好 地 工作 了 。 

K 9-1 按 比 例 展 示 了 倒 排 索引 在 不 同 的 文本 大 小 下 所 占用 的 空间 ， 分 为 包含 和 不 包含 禁 
用 词 两 种 情况 。 完 全 倒 排 表 示 倒 排 所 有 词 〈 在 表 中 记 为 “ 按 词 寻 址 ?)， 并 且 保 存 它们 的 确切 
位 置 ， 每 个 指针 4 字 节 。 文 档 寻 址 索引 假设 我 们 指向 的 文档 是 10Kb 大 小 (每 个 指针 所 需要 


344 


252 + 第 9 章 索引 和 搜索 


的 字 节 数 依 文本 大 小 而 定 ， 如 1、2 或 3 字 节 )。 块 寻 址 索引 假设 我 们 使 用 256 字 节 或 者 
64 000 字 节 的 块 〈 每 个 指针 1 或 者 2 字 节 )， 它 与 文本 的 大 小 无 关 。 通 过 压缩 ， 指 针 所 占 的 
空间 可 以 大 为 减少 。 我 们 假设 ，45% 的 词 是 禁用 词 ， 每 11. 5 个 字符 就 有 一 个 非 禁 用 词 。 我 
们 对 词汇 表 的 估计 基于 Heaps 法 则 ， 其 中 的 参数 是 V 二 30n"”*。 所 有 这 些 决 策 都 来 自 经 验 ， 
并 已 经 实验 验证 。 








块 1 块 2 抉 3 块 4 
words. Words arelmade from letters. 
文本 
词汇 表 记录 
tetters 4 
made 4 
many 2. HERS 
text 1,2... 
words 3 





图 9-4 分 成 4 个 块 的 样 例文 本 ， 以 及 在 此 之 上 建立 的 用 块 寻 址 的 倒 排 索引 。 记 录 表 示 
块 号 。 注 意 词 “words” 的 两 个 记录 合并 为 一 个 块 引用 


表 9-1 倒 排 索引 的 大 小 占 整 个 文档 集 大 小 的 近似 百分比 。 考 虑 了 4 种 颗粒 度 和 3 个 文档 集 。 对 于 每 个 文档 
集 ， 左 栏 是 没 索引 禁用 词 的 情况 ， 而 右 栏 是 所 有 词 都 被 索引 的 情况 

索引 颗粒 度 单个 文件 (1MB) 小 文档 集 (200MB) 

按 词 寻 址 

按 文档 寻 址 

按 64K 大 小 的 块 寻 址 

按 256K 大 小 的 块 寻 址 






中 等 文档 集 (2GB) 
63% 
47% 
9% 





















块 的 大 小 可 以 是 固定 的 《意味 着 在 文本 数据 库 上 使 用 多 辑 块 结构 )， 或 者 它们 可 以 通过 
以 天 然 的 分 割 方式 将 文档 集 分 成 文件 、 文 档 、 网 页 或 其 他 方式 加 以 定义 。 分 割 成 固定 大 小 的 
块 能 够 在 检索 时 提高 效率 ， 也 就 是 说 ， 块 的 大 小 波动 越 大 ，( 在 检索 时 ) 平均 需要 按 序 遍 历 
的 文本 越 多 。 这 是 因为 较 大 的 块 更 多 地 匹配 查询 ， 遍 历 的 代价 也 更 高 。 

或 者 ， 用 自然 的 分 割 方 式 就 可 以 不 需要 在 线 遍 历 。 比 如 ， 如 果 每 个 检索 单元 是 一 个 块 ， 
而 且 并 不 需要 确切 的 匹配 位 置 ， 那 么 对 于 单个 词 查询 就 没 必要 遍历 所 有 的 文本 ， 因 为 知道 是 
哪个 检索 单元 已 经 足够 了 。 但 是 ， 在 另 一 方面 ， 如 果 许 多 检索 单元 都 放 在 同一 个 块 中 ， 那 么 
必须 遍历 这 个 块 来 决定 获取 哪个 检索 单元 。 

需要 注意 的 是 : 为 了 使 用 块 寻 址 ， 文 本 必须 在 搜索 时 就 已 经 准备 好 了 。 而 不 是 像 远程 文 
本 (如 Web 搜索 引擎 )， 或 者 挂 载 CD-ROM 中 的 文本 的 那些 情况 。 同 样 ， 如 果 块 就 是 检索 
单元 ， 那 么 不 需要 知道 确切 位 置 的 受 限 检索 也 可 以 解决 问题 。 


9.2.3 搜索 


接 下 来 ， 我 们 假设 已 经 有 了 完全 倒 排 索 引 ， 其 中 的 倒 排 表 按 照 文档 标识 符 排 序 。 因 而 ， 
下 面 所 说 的 算法 不 仅 可 以 用 于 布尔 模型 ， 而 且 当 存在 基于 全 局 排序 的 标识 符 方案 时 ,可 以 用 
于 返回 前 & 个 排序 文档 的 模型 。 然 后 ， 我 们 讨论 用 于 其 他 排序 方案 的 倒 排 索引 。 

1. 单个 词 查询 

检索 的 最 简单 (也 是 最 常见 的 ) 类 型 就 是 查询 单个 词 的 记录 。 这 对 倒 排 索引 来 说 是 直截了当 
的 ; 在 词汇 表 中 查找 这 个 词 ， 然 后 得 到 对 应 的 记录 列表 ， 再 以 文本 位 置 升序 的 形式 直接 提交 。 
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词汇 表 搜 索 可 以 用 任何 合适 的 数据 结构 来 实现 ， 如 散 列 、trie 树 ， 或 者 B 树 。 前 两 个 的 
查询 复杂 度 是 Om) (与 文本 大 小 无 关 )， 这 里 的 m 是 查询 的 长 度 。 采 用 简单 的 方法 ， 如 以 
词典 顺序 保存 词汇 表 中 的 词 ， 它 占用 的 空间 更 少 ， 而 且 性 能 也 可 以 接受 ， 因 为 如 果 使 用 二 分 
查找 ， 查 询 词 可 以 通过 OC logn) 次 字符 串 比 较 找到 ， 这 里 的 n 是 词汇 表 大 小 。 我 们 注意 到 ， 
词汇 表 在 大 多 数 情况 下 足够 小 ， 能 够 存储 在 内 存 中 。 相 反 ， 记 录 表 通常 要 从 磁盘 上 获取 ， 但 
也 可 以 将 一 部 分 存储 在 内 存 中 (如 11. 4. 3 节 所 讲 的 缓存 倒 排 表 ) 。 

如 果 索 引 并 没有 保存 足够 的 信息 来 提供 期 望 精度 级 的 记录 〈 也 就 是 说 ， 索 引 地 址 块 或 地 
址 文件 ， 但 是 需要 词 的 精确 位 置 )， 那 么 还 需要 在 记录 表 中 得 到 的 单元 上 进行 序列 搜索 。 序 
列 搜索 算法 将 在 9. 5 节 讨论 。 

2. 多 个 词 查询 

如 果 查 询 多 于 一 个 词 ， 那 么 需要 考虑 两 种 情况 : AR CAND 操作 ) 和 析 取 (OR 操作 ) 
查询 。 也 就 是 说 ， 布 尔 查询 的 两 个 特定 例子 。 由 于 文档 集 的 大 小 ， 第 一 种 情况 在 Web H H 
较 常 见 。 

合 取 查询 表示 检索 查询 中 的 所 有 词 ， 对 每 个 词 获取 一 个 倒 排 表 。 接 下 来 ， 对 所 有 倒 排 表 
求 交 集 (intersect) 来 得 到 包含 所 有 这 些 词 的 文档 。 有 多 个 求 交 集 算 法 来 实现 这 个 目的 ， 它 
们 取决 于 列表 是 如 何 存储 的 ， 因 为 它们 可 以 是 连续 的 ， 也 可 以 是 分 段 的 。 假 设 列 表 是 连续 存 
储 的 ， 并 以 文档 顺序 排列 。 最 简单 也 是 用 得 最 多 的 启发 式 方法 [491] 是， 按照 长 度 对 列表 
排序 ， 并 从 最 短 的 两 个 列表 开始 求 交集 ， 然 后 对 结果 和 下 一 个 最 短 的 列表 求 交集 ， 以 此 类 
推 。 其 出 发 点 是 ， 在 某 些 点 ， 交 集 变 成 了 空 集 ， 这 样 我 们 就 不 用 再 继续 做 下 去 了 。 注 意 ， 交 
集 为 空 出 现 的 概率 应 该 在 短 列表 中 比较 高 。 对 多 于 两 个 词 的 查询 ， 这 个 算法 在 最 坏 情况 下 是 
超 线 性 的 ， 但 平均 来 说 是 次 线性 的 。 

析 取 查询 表示 检索 查询 中 所 有 的 词 ， 对 每 个 词 收集 一 个 倒 排 表 。 因 此 ， 在 所 有 这 些 情况 
中 ， 列 表 必 须 合 并 ， 使 得 它们 以 文档 或 者 文本 位 置 顺序 升序 排列 。 同 样 ， 有 可 能 必须 进行 一 
些 序列 搜索 来 得 到 确切 的 位 置 。 需 要 注意 的 是 ， 推 荐 先 合并 记录 列表 ， 然 后 进行 序列 遍历 ， 
因为 这 样 可 以 避免 一 个 文档 出 现在 多 个 列表 中 的 情况 下 多 次 遍历 文本 。 接 下 来 ， 我 们 讨论 简 
单 合并 算法 的 一 些 变种 。 

3. 列表 求 交 集 

因为 在 倒 排 索引 中 最 耗费 时 间 的 操作 是 合并 记录 列表 或 者 对 之 求 交 集 ， 所 以 优化 这 些 操 
作 是 十 分 重要 的 。 考 虑 一 对 需要 求 交 集 的 大 小 分 别 是 m 和 HR, MR m 比 n 小 得 多 ， 
那么 最 好 在 较 大 的 列表 上 做 m 次 二 分 查找 ， 这 个 算法 的 复杂 度 是 Omen). Alt, WE m 
是 Oln /lgn) 级 的 ， 那 么 这 个 算法 比 线性 合并 算法 更 好 ， 后 者 的 复杂 度 是 O(n 十 m) 。 注 意 ， 
每 次 二 分 查找 可 以 在 较 大 列表 中 上 次 二 分 查找 停止 时 的 位 置 到 最 右 位 置 之 间 进行 。 

对 于 这 种 情况 ， 另 一 种 可 能 的 方法 是 使 用 成 信 扩 展 搜索 (doubling search) [490]， 它 与 二 
分 搜索 有 同样 的 复杂 度 ， 但 是 不 需要 一 直 把 整个 列表 放 在 内 存 中 。 它 的 思想 是 ， 把 较 小 列表 中 
的 元 素 和 较 长 列表 中 位 置 GSO 上 的 元 素 进行 比较 ， 直 到 我 们 发 现 所 查找 的 文档 在 上 两 次 
查看 的 位 置 之 间 。 我 们 继续 递归 地 对 较 短 列表 中 的 下 一 个 文档 从 较 长 列表 中 的 下 一 个 位 置 开始 
成 倍 搜索 。 然 而 ， 如 果 mx 入 是 可 比较 的 (数量 级 )，Baeza-YatesL87] 设计 了 一 个 成 倍 二 分 搜 
索 算 法 ， 当 交集 接近 为 空 (O( logn)) 时 ， 它 的 速度 十 分 快 ， 而 且 和 需要 的 平均 比较 次 数 少 于 m+ 
nf 124]。 实 际 上 ， 前 面 两 个 算法 的 平均 复杂 度 都 是 OCmlog(n/m)) 。 最 近 的 一 篇 论文 对 这 些 算 
法 和 其 他 一 些 算法 进行 了 彻底 的 比较 ， 宸 明 最 好 的 算法 也 依赖 于 数据 的 分 布 [143]。 事 实 上 ， 
不 同 问 题 的 困难 可 能 是 很 不 一 样 的 ， 求 交集 的 复杂 度 源 自 于 此 [142]。 然 而 ， 另 外 两 篇 论文 表 
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明 ， 对 于 压缩 的 倒 排 表 ， 最 好 的 算法 可 能 是 很 不 一 样 的 [1420，463] 。 

在 列表 大 小 不 定 的 情况 下 ， 这 些 算 法 可 以 逐一 使 用 。 当 列表 多 于 两 个 时 ， 根 据 列 表 的 大 
小 会 有 多 个 可 能 的 启发 式 方法 。 对 于 三 个 列表 的 情况 ， 最 好 的 方案 是 先 对 两 个 最 短 的 列表 求 
交集 ， 然 后 将 结果 与 最 长 的 列表 再 求 交集 。 对 于 四 个 或 者 更 长 的 情况 ， 启 发 式 的 方法 将 依赖 
于 部 分 结果 ， 因 此 必须 是 自 适 应 的 。 通 常 ， 建 立 一 个 平衡 的 合并 树 ， 在 结束 之 前 避免 长 列表 
效果 会 比较 好 。 另 一 方面 ， 实 际 上 我 们 不 会 有 多 于 6 一 8 个 列表 的 情况 。 因 此 ， 如 果 对 两 个 
最 短 的 列表 求 交 集 后 得 到 了 一 个 十 分 小 的 结果 ， 那 么 可 能 最 好 把 它 再 与 下 一 个 最 小 的 列表 求 
交集 ， 以 此 类 推 。 

4. 更 加 复杂 的 查询 

前 缀 查询 和 范围 查询 基本 上 就 是 析 取 查询 。 前 缀 查询 和 范围 查询 都 表示 词汇 表 中 词典 顺 
序 上 的 一 段 区 间 ， 因 此 它们 可 以 通过 二 分 搜索 、trie MRA B 树 来 高 效 地 解决 ， 但 散 列 不 
行 。 在 这 些 查询 中 ， 通 常会 有 多 个 词 符合 查询 模式 ， 因 此 最 终 我 们 同样 会 有 多 个 倒 排 表 ， 然 
后 就 可 以 用 之 前 的 算法 了 。 

对 于 复杂 的 查询 模式 ， 如 正则 表达 式 或 近似 搜索 ， 在 词汇 表 上 建立 的 数据 结构 用 处 很 小 
(尽管 可 以 在 trie W EER, A 9. 4. 3 节 )。 解 决 方案 则 是 用 9. 5 节 所 给 出 的 算法 ,顺序 地 
遍历 词汇 表 来 找 出 所 有 满足 查询 模式 的 词 。 对 应 的 记录 列表 同样 必须 合并 起 来 。 

这 样 一 个 顺序 遍历 的 代价 并 不 会 太 高 ， 因 为 它 只 在 词汇 表 上 进行 ， 词汇 表 的 大 小 大 概 与 
文本 大 小 的 平方 根 成 比例 。 实 际 上 ， 顺 序 遍 历 词汇 表 会 花费 零点 几 秒 的 时 间 。 注 意 ， 这 里 的 
顺序 遍历 有 一 点 特别 ， 因 为 我 们 需要 匹配 词汇 表 中 的 整个 词 ， 而 不 是 任何 子 串 。 在 压缩 文本 
上 的 模式 匹配 同样 也 使 用 这 种 词汇 表 扫 描 策略 。 

同样 需要 注意 的 是 ， 这 个 方法 只 解决 了 模式 必须 匹配 单个 词 的 情况 例如， 如果 我 们 查 
找 “shaliow”， 并 人 允许 有 一 个 错误 ， 那 么 我 们 会 找到 “shalow” 的 记录 ， 因 为 它 匹配 查询 的 
整个 词 。 然 而 ， 如 果 文 本 错误 地 把 词语 分 割 了 ， 如 “shall ow”， 或 者 与 其 他 词 连 在 一 起 了 ， 
如 “shallowwater”， 那 么 上 面 的 机 制 就 无 法 找 出 这 些 只 有 一 个 错误 的 情况 了 。 只 有 序列 搜索 
(9.54) 或 者 后 缀 树 和 后 缀 数组 〈 见 9.4 节 ) 能 够 找到 这 些 记录 。 

5 短语 和 邻近 搜索 

这 里 我 们 讨论 短语 和 邻近 搜索 〈 或 叫做 上 下 文 搜索 ) 如 何在 倒 排 索引 上 进行 。 这 些 搜索 
更 加 复杂 ， 因 为 必须 对 每 个 词 搜索 ， 然 后 必须 处 理 它 们 的 记录 列表 来 获取 答案 。 

上 下 文 搜索 更 难 用 倒 排 索引 解决 。 每 个 元 素 必须 单独 搜索 ， 并 对 每 个 元 素 生 成 一 个 按 位 
置 递增 排序 的 列表 。 然 后 ， 对 所 有 元 素 的 列表 进行 同步 遍历 ， 找 出 所 有 词 连续 出 现 〈 短 语 ) 
或 者 出 现 得 足够 近 〈 邻 近 ) 的 位 置 。 这 里 ， 我 们 只 需 改 变 交 集 的 定义 就 可 以 应 用 前 面 所 讲 的 
求 交 集 算法 。 例 如 ， 在 记录 词 位 置 的 情况 下 ， 对 于 短语 搜索 ， 如 果 我 们 搜索 短语 “a b c”， 
那么 我 们 需要 在 a、b 和 ce 的 记录 列表 中 分 别 找到 连续 的 位 置 i、i 十 1 和 i 十 2。 如 果 我 们 需要 
找 出 两 个 词 a、b 最 多 间隔 & 个 词 的 情况 ， 那 么 我 们 需要 在 a 和 ob 的 记录 列表 中 分 别 找到 位 
置 ; 和 7 ， 并 满足 | 一 /省 委 & 十 1。 

如 果 索 引 保存 字符 位 置 ， 那 么 短语 查询 就 无 法 忽略 分 隔 字符 ， 同 时 邻近 程度 必须 以 字符 
距离 来 定义 。 

短语 搜索 的 另 一 个 解决 方案 是 对 两 个 词 的 短语 建 索引 ， 并 在 词 对 上 使 用 相似 度 算法 。 这 
个 方法 的 主要 缺点 是 词汇 表 会 非 线性 地 增长 ; 尽管 倒 排 表 更 短 ， 但 索引 的 总 大 小 会 增加 
50% 或 更 多 。 一 种 可 能 的 方案 是 只 索引 查询 中 热门 的 词 对 ， 在 短语 搜索 的 索引 空间 和 效率 之 
间 取 得 平衡 。 
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6. 布尔 查询 

我 们 现在 介绍 一 些 通用 的 集合 操作 算法 。 这 些 算法 在 操作 结果 集合 时 使 用 ， 如 一 般 布尔 
查询 中 的 情况 。 在 7.1.1 节 描述 过 布尔 查询 ， 并 定义 了 查询 句法 树 〈query syntax tree), 

一 且 查 询 句 法 树 的 叶子 确定 了 “〈 用 算法 找 出 包含 给 定 基本 查询 的 文档 )， 通 过 组 合 操作 
符 就 可 以 找到 用 户 有 可 能 感 兴趣 的 文档 〈 根 据 用 户 提交 的 查询 )。 一 般 来 说 ， 检 索 过 程 包括 
三 个 步骤 : 第 一 个 步骤 决定 匹配 哪些 文档 ; 第 二 个 步骤 决定 匹配 文档 的 相关 程度 ， 从 而 以 合 
适 的 方式 展示 给 用 户 ; 第 三 个 步骤 得 到 匹配 的 确切 位 置 ， 使 得 如 有 果 需 要 的 话 ， 在 浏览 时 能 突 
出 显示 它们 。 

这 个 方案 避免 对 不 包含 (与 查询 的 ) 匹配 〈 第 一 个 步骤 ) 或 最 后 并 不 会 展示 出 来 〈 第 二 
个 步 又) 的 文档 做 一 些 无 用 功 。 然 而 ， 如 果 做 一 些 额 外 的 操作 开销 并 不 大 ， 有 些 步 又 是 可 以 
合并 的 。 在 某 些 场 最 中 ， 有 些 步骤 可 能 并 不 存在 。 

一 旦 查询 句法 树 的 叶子 找到 了 不 同类 别 的 文档 集合 ， 那 么 树 的 内 部 结 点 对 这 些 集合 进 一 
步 进 行 操 作 。 可 以 使 用 一 些 代数 方法 来 优化 这 棵 树 ， 例 如 恒等式 a ORC AND b)=a, Bil 
如 ， 公 共 的 子 表达 式 ， 但 是 我 们 这 里 并 不 涉及 这 些 问题 。 

因为 所 有 的 操作 符 都 需要 与 在 两 个 操作 数位 置 上 的 文档 配对 ， 所 以 一 个 较 好 的 方法 是 保 
持 集合 有 序 ， 这 样 像 交 集 和 并 集 这 样 的 操作 就 能 够 顺序 地 处 理 两 个 倒 排 表 ， 而 且 最 后 产生 一 
个 有 序 的 倒 排 表 。 另 外 也 可 能 会 有 其 他 不 包含 匹配 文档 列表 的 集合 表示 形式 (如 位 向 量 )。 

在 这 样 的 方案 下 ， 可 以 以 完全 (full》 或 者 惰性 (lazy) 的 形式 对 语法 树 求 值 。 在 完全 
求 值 的 形式 中 ， 首 先 完 全 得 到 两 个 操作 数 ， 然 后 再 产生 完整 的 结果 。 在 惰性 求 值 的 形式 中 ， 
只 有 当 需 要 的 时 候 才 产 生 结 果 ， 并 且 为 了 得 到 这 个 结果 ， 两 个 操作 数 会 递归 地 调用 一 些 
数据 。 

完全 求 值 使 得 某 些 优 化 能 够 执行 ， 因 为 事先 知道 结果 的 大 小 《可 以 用 在 长 列表 中 二 分 搜 
索 短 列表 中 元 素 的 方法 将 短 列表 合并 为 一 个 长 列表 ) 。 在 另 一 方面 ， 惰 性 求 值 使 得 应 用 能 够 
控制 何 时 去 获取 新 的 结果 ， 而 不 必 为 了 获取 结果 而 阻塞 很 长 时 间 。 混 合 方案 也 同样 是 有 可 能 
的 ， 如 一 次 获取 所 有 的 叶子 结 点 ， 然 后 以 惰性 的 形式 来 处 理 。 这 么 做 也 许 是 有 用 的 ， 如 为 了 
实现 一 些 优 化 或 者 为 了 确保 所 有 对 索引 的 访问 都 是 顺序 的 (因此 减少 磁盘 寻 道 时 间 )。 
图 9-5 展 示 了 这 种 情况 。 
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图 9-5 处 理 查询 句法 树 的 内 部 结 点 。a) 中 使 用 了 完全 求 值 ，b) 中 详细 地 展示 了 情 性 求 值 
解决 这 些 查询 类 型 的 复杂 度 ， 除 了 获取 叶子 结 点 上 的 结果 所 需 的 开销 外 ， 通 常 与 所 有 中 


间 结 果 的 总 大 小 成 线性 关系 。 这 也 是 为 什么 当 有 大 量 中 间 结 果 时 ， 这 个 时 间 是 起 主导 作用 
的 。 当 最 终结 果 集 较 小 时 这 一 点 对 用 户 来 说 更 明显 。 
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9.2.4 排序 


本 节 讨 论 当 有 了 按 权 重 排序 的 倒 排 表 后 ， 怎 样 找到 最 佳 的 文档 。 一 个 重要 的 目标 是 ， 我 

348] ” 们 并 不 想 找 到 所 有 的 管 案 ， 因 为 这 太 耗 时 间 了 。 我 们 想 找到 的 是 排名 前 8 个 的 文档 ,并 把 它 

们 返回 给 用 户 。 如 果 我 们 处 理 单个 词 查 询 ， 这 个 答案 是 简单 的 ， 因 为 倒 排 表 已 经 按照 期 望 的 
方式 排 好 序 ， 所 以 我 们 只 需 从 倒 排 表 中 返回 前 个 文档 就 行 了 。 

对 于 其 他 查询 ， 我 们 需要 合并 倒 排 表 。 因 为 它们 并 未 按 文 档 编号 排序 ， 不 能 使 用 顺序 合并 
实现 有 效 的 求 交集 操作 ， 所 以 我 们 需要 使 用 不 同 的 算法 。 主 要 思想 是 计算 每 篇 文档 的 排序 ,使 
其 顺序 接近 于 最 后 的 顺序 。 最 好 的 解释 方法 就 是 举 个 例子 。 考 虑 图 3-6 中 的 文档 集 和 表 3-3 中 
根据 TF-IDF 权重 排序 的 倒 排 表 。 假 设 现 在 我 们 搜索 析 取 查询 to do， 直 接 的 方案 就 是 如 表 3-8 
所 示 ， 计 算 查 询 与 所 有 文档 之 间 的 相似 度 。 然 而 ， 正 如 我 们 已 经 说 过 的 那样 ， 当 文档 数目 十 分 
大 时 ， 其 代价 会 非常 高 。 因 此 ， 我 们 要 做 的 是 先 计算 排名 可 能 较 高 的 那 部 分 文档 。 因 为 我 们 的 
文档 集 很 小 ， 所 以 假设 我 们 只 对 排名 最 高 的 文档 感 兴 趣 。 对 此 ， 我 们 将 维护 一 个 排 在 前 两 名 的 
文档 集合 ， 以 便 最 后 能 得 到 最 佳 的 文档 。 因 为 我 们 试图 最 大 化 TF-IDF 的 乘积 ， 我 们 将 使 用 下 
列 启 发 式 方法 : 1) 以 IDF 顺序 处 理 查 询 项 ，2) 每 个 查询 项 以 TF 顺序 处 理 。 

在 我 们 的 例子 中 ， 从 IDF 值 为 1 to 的 查询 项 开始 ， 从 它 的 倒 排 索引 中 选择 前 两 名 的 
文档 : dl 和 d2， 并 计算 这 些 文档 与 查询 to 之 间 的 部 分 相似 度 。 这 是 初始 的 候选 文档 集 。 然 
后 继续 检查 查询 项 to 的 倒 排 表 。 现 在 ， 我 们 看 下 一 个 词 do， 并 以 权重 顺序 查看 它 的 倒 排 表 。 
于 是 从 43 开始 ， 计 算 这 个 文档 与 查询 do 之 间 的 部 分 相似 度 。 这 个 值 比 前 两 个 候选 文档 的 任 
何 一 个 都 要 小 ， 所 以 不 用 再 继续 检查 这 个 倒 排 表 了 ， 因 为 倒 排 表 中 的 其 他 文档 也 是 这 样 的 情 
况 。 然 后 ， 排 名 最 高 的 文档 就 是 前 两 个 候选 文档 中 最 佳 的 一 个 ， 即 d1。 注 意 ， 尽 管 我 们 没 
有 计算 整体 相似 度 ， 但 是 这 个 结果 与 表 3-3 是 一 样 的 。 

现在 我 们 可 以 阐述 通用 的 算法 ， 它 是 Persin 算法 [1257, 1258] 的 一 个 变种 。 我 们 使 
用 一 个 包含 C 个 候选 文档 的 优先 队列 P， 将 用 这 些 文档 计算 部 分 相似 度 。 然 后 按 权 重 的 降序 
顺序 处 理 查询 项 ， 并 对 每 个 项 计算 阐 值 tws 。 这 个 阔 值 是 指 能 够 加 入 到 部 分 相似 度 计算 队列 

的 最 小 值 。 否 则 ， 我 们 可 以 忽略 倒 排 索引 表 的 剩 下 部 分 。 这 个 算法 的 伪 代 码 见 图 9-6， 其 中 


Ranking-in-the-vector-model( query terms 1 ) 





(1) Create P as C-candidate similarities initialized to (Pz, Pa) = (0,0) 
(2) Sort the query terms t by decreasing weight 

(3) cel. 

(4) for each sorted term t in the query do { 

(5) Compute the value of the threshold taaa. 

(6) Retrieve the inverted list for t, Li. 





(7) for each document din L; do { 

(8) if wae < tada then break 

(9) psim — wat x Wqt/Wa- 

(10) if de Pi(i) then P,,(i) — Poli) + psim 

(11) elif psim > min;(Pu(j)) then n — min,;(P.(j)) 
(12 elif c<C then { 

(13 noc 

(14 

( 


} 
if n<C then P(n) (d, psim) 


} 


} 
return the top-k documents according to Py 





) 
) 
) e—ce+t+l 
) 
) 


| 





图 9-6 Persin 算法 变种 的 伪 代 码 ， 在 向 量 模型 中 使 用 部 分 求 值 方法 来 计算 排序 的 答案 
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主要 有 两 种 情况 . 如 果 文 档 已 经 在 候选 列表 中 ， 那 么 我 们 加 一 个 新 项 (的 相似 度 ) 到 它 的 相似 
EE: 否则 ， 如 果 候 选 文 档 少 于 C 个 ,或 者 它 的 相似 度 大 于 候选 集中 的 最 小 相似 度 ， 那 么 我 们 
初始 化 新 文档 的 相似 度 。 原 算法 讨论 了 如 何 设置 阐 值 xu 的 值 ， 但 是 一 个 简单 的 方法 是 使 用 与 
当前 候选 文档 的 最 小 距离 ， 对 于 每 个 项 它 在 OO 时 间 内 就 能 计算 得 到 。 原 算法 还 使 用 了 另 一 
个 阅 值 来 添加 候选 文档 即 没 有 固定 的 最 大 值 )， 这 使 得 能 够 在 最 后 用 文档 长 度 W 来 归 一 化 。 
我 们 的 选择 是 设 定 候选 文档 的 最 大 数目 C， 它 是 的 一 个 函数 (如 C = 10k )， 这 简化 了 算法 ， 
但 是 在 循环 中 增加 了 一 次 除法 。 

这 个 算法 的 计算 可 以 通过 在 索引 中 保存 整数 而 不 是 实数 来 优化 。 这 些 整 数 可 能 会 降低 精 
度 〈 如 最 大 位 数 )， 尽 管 计算 结果 可 能 是 近似 值 ， 但 是 它 对 最 终 排 序 引 入 的 误差 很 小 。 正 如 
Ahn 等 人 [54, 55] 在 他 们 的 按 影响 排序 的 索引 中 所 展示 的 那样 ， 在 权重 上 引入 文档 长 度 
也 能 够 加 速 相 似 度 计算 。 


9.2.5 构建 


1. 内 部 算法 

当 我 们 可 以 把 文本 和 索引 保存 在 内 存 中 时 ， 建 立 和 维护 全 文 倒 排 索引 是 一 个 相对 简单 和 
低 代价 的 任务 。 用 于 保存 词汇 表 的 动态 数据 结构 《如 B 树 、 散 列表 〉 在 创建 时 是 空 的 。 然 
后 扫描 文本 ,并 在 词汇 表 中 依次 查找 每 个 词 。 如 果 是 个 新 词 ， 它 就 被 插入 到 词汇 表 中 。 一 旦 
该 词 已 经 在 词汇 表 中 ， 这 个 搜索 就 返回 这 个 词 的 标识 符 ， 它 是 指向 词汇 表 条 目的 指针 。 

除了 词汇 表 ， 还 会 分 配 一 个 很 大 的 数组 ， 其 中 保存 了 文本 中 每 个 连续 词语 的 标识 符 以 及 
它 在 文本 中 的 位 置 。 一 旦 文本 词语 的 序列 转化 成 大 数组 中 “标识 符 : 位 置 ” 对 的 序列 ， 这 个 
数组 按照 标识 符 稳定 排序 〈 一 种 排序 是 稳定 的 ， 指 的 是 值 相 等 的 键 按照 原始 的 位 置 排序 ) 。 
在 这 样 排序 后 ， 相 同 的 标识 符 聚 合 在 一 起 ， 在 大 数组 中 形成 了 连续 的 一 段 区 间 ， 其 中 位 置 域 
是 升序 的 。 通 过 使 用 每 个 区 间 的 标识 符 ， 我 们 可 以 令 词汇 表 中 的 词 指向 区 间 的 第 一 个 位 置 。 
然后 构建 过 程 就 完成 了 ， 如 图 9-7 所 示 。 


1 6 9 ll 1719 24 28 33 40 46 50 55 60 


This is a text. A text has many words. Words are made from letters. 


文本 


词汇 表 trie 树 





图 9-7 用 递增 算法 为 样 例文 本 建立 全 文 倒 排 索引 


根据 标识 符 的 属性 ， 我 们 有 可 能 使 用 线性 时 间 的 桶 排序 。 如 果 桶 排序 可 行 ， 这 个 过 程 将 
需要 O(n) 时 间 ; 否则 ， 时 间 将 是 O(nlogn) ， 比 桶 排序 算法 慢 。 这 个 算法 如 图 9-8 所 示 。 

避免 排序 的 一 个 选择 是 从 一 开始 就 分 割 倒 排 索 引 。 在 这 种 情况 下 ， 词 汇 表 中 的 每 个 词 将 
保持 一 个 指向 它 自 己 的 记录 数组 GK) 的 指针 ， 刚 开始 是 空 的 。 然 后 ， 当 在 词汇 表 中 找到 
文本 中 的 词 后 ， 它 的 位 置 被 播 到 列表 的 最 后 。 当 文本 扫描 结束 时 ， 记 录 列 表 就 已 经 得 到 了 。 
在 倒 排 表 支持 排序 的 情况 下 ， 我 们 不 能 简单 地 在 列表 的 最 后 添加 ， 我 们 必须 将 新 项 插入 到 列 
表 合 适 的 位 置 ， 并 更 新 对 应 文档 的 权重 。 这 就 意味 着 用 于 支持 权重 排序 的 列表 的 数据 结构 需 
要 能 在 任何 位 置 上 更 新 。 
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In theory,there is no difference between theory and practice.In practice,there is. 
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图 9-8 用 排序 算法 对 样 例 文本 建立 全 文 倒 排 索 引 


一 个 不 小 的 问题 是 ， 如 何 为 许多 记录 列表 分 配 内 存 。 每 个 元 素 都 单独 分 配 内 存 的 典型 列 
表 浪 费 太 多 内 存 。 相 反 ， 一 个 更 可 取 的 方案 是 ， 分 配 一 个 块 列表 ， 然 后 每 个 块 中 保存 一 些 条 
目 。 但 是 ， 根 据 齐 夫 法 则 〈 见 6. 5. 2 节 )， 许 多 词 会 有 很 短 的 列表 ， 而 少数 词 会 有 很 长 的 列 
表 。 所 以 ,很 难 选择 块 的 大 小 ， 因 为 很 小 的 块 会 在 长 列表 中 浪费 很 多 空间 ， 而 大 的 块 又 会 对 
不 常用 的 词 产生 许多 几乎 为 空 的 块 。 一 个 好 的 方案 是 ， 使 用 大 小 可 变 的 块 ， 这 样 对 记录 列表 
分 配 的 第 一 个 块 是 短 的 ， 随 着 越 来 越 多 的 记录 出 现 ， 更 长 的 块 会 分 配给 它 〈 因 为 这 说 明 这 个 
词 是 频繁 出 现 的 ) 。 分 配 空 间 的 一 个 方法 是 每 次 对 列表 的 大 小 翻 倍 。 这 保证 了 在 算法 运行 时 
内 存 分 配 操作 造成 的 影响 是 OClogn) ， 而 不 是 O(n) 。 但 在 另 一 方面 ， 我 们 可 能 会 浪费 更 多 
的 空间 。 

避免 这 个 分 配 问题 的 一 个 方法 是 ， 先 遍历 一 遍 整 个 文本 ， 计 算 所 有 词语 的 频率 ， 这 样 就 
可 以 根据 它们 最 终 的 大 小 来 分 配 数组 ， 然 后 再 在 第 二 遍 时 填充 数组 。 然 而 ， 遍 历 两 遍 文本 的 
代价 比 前面 介 绍 过 的 两 种 技术 都 要 高 。 但 是 需要 注意 的 是 ， 有 时 遍历 两 沉 文 本 是 无 论 怎 样 都 
要 执行 的 操作 ， 如 对 半 静 态 文本 进行 压缩 ( 见 6. 8 节 )。 

一 旦 这 个 过 程 用 任何 一 种 方法 完成 了 ,词汇 表 就 写成 磁盘 文件 ， 而 记录 列表 写成 男 一 个 
文件 。 正 如 之 前 提 到 的 ， 有 时 把 第 二 个 文件 叫做 记录 文件 (posting file)。 对 于 每 一 个 词 ， 
词汇 表 中 包含 了 一 个 指向 倒 排 索引 中 词 记录 开始 位 置 的 指针 。 这 使 得 词汇 表 在 大 多 数 情况 下 
能 够 在 搜索 时 一 直 留 在 内 存 中 。 而 且 ， 只 需 很 少 或 者 不 需要 额外 开销 ， 一 个 词 的 记录 个 数 也 
可 能 通过 词汇 表 立 刻 知道 。 

总 之 ， 如 果 我 们 有 足够 的 内 存 ， 那 么 递增 算法 通常 是 更 好 的 ， 因 为 我 们 只 需要 遍历 一 遍 

352] MA; 否则 ， 遍历 两 遍 的 算法 仍然 是 合理 的 ， 因 为 它 顺序 地 进行 读 取 。 

2. 外 部 算法 

先前 的 构建 方法 只 有 当 记录 列表 能 够 放 在 内 存 中 时 才 有 效 。 但 在 实际 中 很 少 是 这 样 的 情 
况 ， 所 以 我 们 必须 扩展 这 个 技术 来 处 理 更 大 的 文本 集 。 所 有 这 些 算法 都 可 以 通过 使 用 它们 直 
到 内 存 耗 尽 来 进行 扩展 。 这 时 ,将 当前 已 有 的 部 分 索引 I 写 到 磁盘 上 ， 并 从 内 存 中 擦 除 ， 
然后 对 剩余 文本 继续 进行 索引 。 

当 所 有 文本 都 处 理 完 以 后 ， 在 磁盘 上 存在 一 定数 目的 部 分 索引 五。 然后 以 一 种 层次 的 方 
式 合 并 这 些 索引 : 索引 I, 和 I, 合并 得 到 T..2; I, 和 L 产生 Ts..4 9 以 此 类 推 。 这 样 生 成 的 部 
分 索引 的 大 小 大 概 是 原来 索引 的 两 倍 。 当 在 这 一 层 的 所 有 索引 都 以 这 种 方式 合并 起 来 后 ， 在 
接 下 来 一 层 上 继续 进行 合并 ;将 索引 MRI LAH, BR. ATMA RA RA 
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下 一 个 包含 了 整个 文本 的 索引 。 另 外 一 些 合 并 顺序 也 是 可 以 的 ， 如 图 9-9 所 示 。 
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图 9-9 以 二 路 的 方式 合并 部 分 索引 。 乞 形 代表 部 分 索引 ， 而 圆 角 矩形 代表 合并 操作 。 合 并 操 
作 中 的 数字 展示 了 一 个 可 能 的 合并 顺序 


合并 两 个 索引 首先 是 合并 词汇 表 ， 其 次 当 词 语 出 现在 两 个 索引 中 时 ， 将 两 个 列表 中 的 记 
录 合 并 。 在 构建 过 程 中 ， 编 号 小 的 索引 中 的 记录 先 于 编号 大 的 索引 ， 因 此 仅仅 需要 连接 这 些 
列表 。 在 带 权 重 的 列表 的 情况 下 ， 我 们 需要 合并 它们 。 尽 管 如 此 ， 在 这 两 种 情况 中 ， 这 都 是 
一 个 十 分 快 的 线性 时 间 过 程 。 总 的 来 说 ， 如 果 M 是 可 用 的 内 存量 ， 我 们 产生 On/M) 个 部 
分 索引 ， 合 并 它们 需要 的 IO 代价 是 O(nlog(n/M)) ， 因 为 总 共有 log, n/M 个 合并 层 ， 同 
时 从 一 层 移 到 接 下 来 一 层 的 I/O 代价 是 O(n) 。 如 果 我 们 对 于 每 个 小 索引 的 构建 都 采用 基于 
排序 的 方法 ， 那么 CPU 的 代价 是 每 个 索引 OCMlogM) ， 总 共 是 Olnlogn) CPU 时 间 。 如 果 
我 们 对 小 索引 使 用 trie 结构 或 者 散 列 方法 ， 那 么 时 间 代 价 是 每 个 小 索引 OM ， 总 共 
O(nlog(n/M)) 。 

每 次 可 以 合并 多 于 两 个 索引 。 尽 管 这 并 不 改变 CPU 复杂 度 ， 但 是 它 提高 1/O 效率 ， 因 
为 有 更 少 的 合并 展 。 另 一 方面 ， 每 个 需要 合并 的 部 分 索引 的 内 存 缓 冲 区 将 变 得 更 小 ， 因 此 会 
执行 更 多 的 磁盘 寻 道 。 实 际 上 ， 一 次 合并 多 达 20 个 部 分 索引 也 是 较 好 的 想法 。 在 这 种 情况 
下 ， 复 杂 度 改进 了 OdogR) 因子 ， 这 里 的 尺 是 合并 的 基数 。 注 意 ， 如 果 使 用 更 多 的 磁盘 ， 
性 能 会 显著 地 提高 ， 因 为 多 个 寻 道 过 程 可 以 同时 进行 。 

和 通常， 建议 一 旦 文件 可 用 时 就 合并 它们 (如 图 9-9 所 示 )， 因 为 在 不 同 的 词汇 表 中 重复 
的 词 合并 成 了 一 个 ， 所 以 合并 文件 的 词汇 表 比 原来 〈 部 分 索引 的 ) 词汇 表 的 总 和 要 小 。 另 一 
方面 ， 记 录 表 上 也 没有 了 宛 余 。 注 意 ， 词 汇 表 可 能 会 是 较 小 的 部 分 索引 的 重要 部 分 。 

如 果 使 用 文件 寻 址 或 者 块 寻 址 ， 这 个 算法 只 需 略 微 改 变 。 索 引 维护 的 代价 也 较 低 。 假 设 
一 个 大 小 为 n 的 新 文本 加 入 到 数据 库 中 ， 如 对 部 分 索引 所 做 的 那样 ， 就 会 建立 这 个 文本 的 
倒 排 索引 ， 然 后 与 原 有 索引 合并 。 这 会 花费 On 十 nlog(ln'/M)) 的 I/O 时 间 。 删 除 文 本 可 
以 通过 如 下 方式 实现 :以 Om 的 复杂 度 遍 历 索 引 ， 删 除 那些 指向 需要 删除 文本 区 域 的 记录 
《同时 ， 如 果 过 程 中 它们 的 记录 列表 变 为 空 ， 那 么 删除 这 些 词 )。 更 新 文档 可 以 通过 删除 旧 文 
档 并 加 入 新 文档 来 简单 地 处 理 。 

总 的 来 说 ， 维 护 一 个 倒 排 索引 可 以 用 三 种 不 同 的 方法 来 实现 ， 
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D 重建 。 如 果 文 本 并 不 是 那么 大 ， 那 么 重建 索引 是 最 简单 的 方法 。 

2) 增 量 更 新 。 我 们 可 以 在 搜索 的 时 候 分 摊 更 新 的 代价 ， 即 我 们 只 在 需要 的 时 候 改 变 倒 
排 索引 。 

D 间 葡 合并 。 如 之 前 的 算法 所 述 ， 索 引 新 文档 ， 将 得 到 的 部 分 素 引 和 较 大 的 索引 合并 。 
一 般 来 说 ， 这 是 最 好 的 方案 。 

在 所 有 这 些 情况 下 ， 我 们 需要 关心 在 索引 更 新 时 发 生 了 什么 变化 。 如 果 保 留 索引 的 一 个 
备份 ， 我 们 可 以 继续 搜索 而 不 发 生 问题 。 通 常情 况 下 ， 我 们 需要 控制 对 索引 的 访问 ， 以 保持 
它 的 一 致 性 。 所 以 ， 如 果 有 了 更 新 ， 我 们 需要 先 收集 它们 ， 供 将 来 的 更 新 阶段 来 处 理 。 在 更 
新 步骤 中 ， 我 们 可 以 有 两 个 倒 排 索引 : 主要 的 一 个 和 包含 所 有 更 新 的 较 小 的 一 个 。 在 这 种 情 
况 下 ， 搜 索 必须 在 这 两 个 索引 上 都 进行 ， 并 合并 结果 。 


9.2.6 压缩 的 倒 排 索引 


在 6. 8 节 ， 我 们 已 经 叙述 过 适合 文本 数据 库 的 压缩 机 制 ， 那 时 只 关注 于 减少 空间 。 在 倒 
排 案 引 的 情况 中 ， 可 以 将 索引 压缩 和 文本 压缩 毫 无 问题 地 结合 起 来 。 事 实 上 ， 在 之 前 所 提 到 
的 所 有 构建 算法 中 ， 都 可 以 加 入 压缩 ， 作 为 最 后 一 步 。 

我 们 从 如 何 压缩 全 文 倒 排 索引 开始 讨论 ( 见 9. 2. 2 节 )， 然 后 考虑 用 于 排序 搜索 的 索引 
( 见 9. 2.4 节 )。 通 常 ， 可 以 通过 按 每 次 压缩 一 个 记录 表 的 方式 压缩 记录 文件 ， 以 极 大 地 减 小 
倒 排 索引 的 大 小 。 如 果 我 们 想 最 大 化 内 存 中 存储 的 索引 量 ， 这 就 十 分 重要 。 

在 全 文 个 排 索引 中 ， 每 个 记录 表 中 的 文本 位 置 或 文件 标识 符 的 列表 都 是 以 升序 排序 的 。 
因此 ， 它 可 以 表示 为 相 邻 数字 间 的 间距 02 或 数 编码 的 例 于 
(gap) 的 序列 。 因 为 在 许多 情况 下 ， 记 













Golomb 编码 





录 列 表 是 从 开头 开始 顺序 处 理 的 ， 所 以 (6 一 3) 
原来 的 文档 编号 可 以 很 方便 地 通过 加 上 1 0 00 
这 些 间距 计算 出 来 。 2 1000 010 
通过 观察 知道 常见 词 的 间距 较 小 ， 3 1001 011 
而 较 不 常见 词 的 间距 较 大 ， 因 此 我 们 可 4 11 11000 10100 100 
以 对 小 的 值 用 较 短 的 编码 来 实现 压缩 。 5 11110 11001 10101 1010 
= 6 111110 11010 10110 1011 
AN E SRS RE — 1 Cunary 7 1111110 11011 10111 1100 
code), 这 里 整数 z 一 人 的 编码 是 (z 一 8 11111110 1110000 11000000 11010 
1) 个 1 后 跟 一 个 0， 所 以 整数 3 的 编 9 111111110 1110001 11000001 11011 
码 是 110。 表 9-2 的 第 二 列 展 示 了 整数 10 1111111110 1110010 11000010 11100 











1 一 10 的 一 元 码 。 

Elias 提出 了 另外 两 种 变 长 的 整数 编码 方案 。 一 个 是 Elias-y 编码 ， 它 通过 连接 两 个 部 分 
来 表示 数字 c>0: 1) 对 于 1 十 | logzz | 的 一 元 码 〈 它 表示 用 多 少 位 来 代表 r); 2) 二 进 制 形 
ARAN rA, BIH logsz | 位 的 编码 〈 这 是 x 不 带 最 高 位 的 二 进 制 形式 ， 因 为 最 高 位 总 
是 1)。 对 于 z 一 5 (二进制 是 101)， 我 们 知道 它 的 长 度 是 1 十 [ logzx+ 」 二 3 ， 同 时 z 一 4% 二 1 
(如 果 使 用 两 位 ， 是 01) 。 因 而 ，z=5 的 Elias-y 编码 通过 合并 3 的 一 元 编码 (110) 和 1 的 
两 位 二 进 制 编码 (OD 得 到 ， 即 11001。 另 外 一 些 Elias-y 编码 的 例子 见 表 9-2。 不 难看 出 ， 
如 果 从 左 向 右 读 ，Elias-y 码 字 可 以 唯一 地 解码 。 

Elias 介绍 的 另外 一 个 编码 方案 是 Eliass 编码 。Elias-8 连接 上 面 的 那 两 个 部 分 1) 和 2)， 
但 是 1) 部 分 并 不 以 一 元 码 的 形式 表示 ， 而 是 使 用 Elias-y 替代 。 对 于 x 二 5， 第 一 部 分 是 101, 
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MWA 110, FUA, z=5 的 Elias-6 编码 是 10101。 表 9-2 展示 了 Elias-6 编码 的 其 他 例子 。 

通常 来 说 ， 对 任意 一 个 整数 x>0, Elias-y 编码 需要 1 十 2Llogsz Mu. m Elias-8 编码 需 
要 1 十 2L logzlog:2zj 十 Llog:zj 位 。 对 于 较 小 的 z 值 ，Elias-7y 编码 比 Elias-6 编码 更 短 ; 4x 
增 大 时 ， 会 产生 相反 的 情况 。 因 而 ， 选 择 何 种 编码 方式 取决 于 我 们 要 编码 的 值 。 

Golomb 表示 另外 一 种 对 正 整 数 z>0 编码 的 方法 。 这 比较 有 趣 ， 因 为 它 能 够 通过 调整 
参数 来 适应 较 小 或 较 大 的 间距 。 对 于 某 个 参数 0， 让 g 和 r 分 别 是 x 一 1 除 以 5 的 商 和 余数 
( 即 g=[(x 一 DJ/6 Mr = (z 一 1) 一 9.6)。 然 后 ，z 的 编码 就 是 : g 十 1 的 一 元 码 表示 后 跟着 
r 的 二 进 制 表 示 ， 使 用 L logz6 或 者 [ logz6 Wi. WR r<, WA rE log: | 位 (编码 
总 是 从 一 个 0 位 开始 ); 否则 ， 它 使 用 [ logs2 1 位 ， 其 中 第 一 位 是 1， 剩 下 的 位 对 7 一 21%! 
的 值 在 | logz6 | 位 内 编码 。 例 如 ， 对 于 5 二 3， 有 三 种 可 能 的 余数 ，r 一 0、r= 二 1、r 二 2， 它 们 的 
编码 分 别 是 0、10、11。 类 似 地 ， 对 于 6 二 5， 有 五 种 可 能 的 余数 r， 从 0 一 4， 它 们 的 编码 分 
别 是 00、01、100、101 和 110。 然 后 ， 如 果 对 于 5 二 3， 需 要 对 x = 二 9 编码 ， 那 么 计算 得 到 
q=2 和 > 一 2。 因 此 ， 编 码 就 是 110 后 面 加 上 11。 对 于 5 二 5， 这 些 值 变 成 a 二 1] 和 r= 二 3， 最 
后 的 结果 就 是 10 后 面 加 上 101。 表 9-2 展示 了 Golomb 编码 对 于 6 二 3 的 其 他 例子 。 

为 了 使 用 Golomb 编码 来 对 记录 列表 进行 编码 ， 必 须 为 每 个 列表 定义 参数 5b。 一 个 合理 
KYA b~(N/D1ln2, RP N 是 所 有 间距 之 和 (或 者 列表 中 的 最 大 数字 )，! 是 列表 中 元 素 
的 个 数 。Golomb 编码 通常 比 Elias-6 或 Elias-y 压缩 效果 更 好 。 例 如 ， 在 TREC-3 文档 集中 ， 
使 用 文件 寻 址 方案 的 Golomb, Elias-8 和 Elias-y 编码 ， 列 表 中 每 一 项 的 编码 的 平均 位 数 是 
5.73、6.19 和 6.43 [1149]。 这 意味 着 相 比 于 简单 的 倒 排 索引 形式 ， 在 空间 占用 上 减少 到 原 
来 的 1/5〈 即 压缩 率 大 概 为 20%)。 一 个 使 用 我 们 之 前 介绍 过 的 任 一 种 间距 编码 技术 压缩 过 
的 文件 寻 址 的 索引 将 占用 4%~8% 的 原始 文本 所 需 的 空间 。 此 外 ， 如 果 我 们 用 字 节 霍 夫 盟 
编码 或 密集 编码 L 6.8 节 ) 来 压缩 文本 ， 那 么 整个 压缩 文本 加 上 它 的 倒 排 索引 将 占用 
30% 一 40%% 原 始 文本 所 需要 的 空间 。 

与 Elias 编码 相 比 ，Golomb 编码 的 缺点 是 需要 遍历 两 遍 文 本 ， 因 为 我 们 必须 在 压缩 列 
表 开 始 前 就 知道 N 和 /7!。 因 此 ， 在 索引 构建 时 〈 见 9. 2. 5 节 )， 我 们 不 能 直接 以 最 终 的 压缩 
形式 保存 记录 列表 ， 但 是 可 以 用 一 些 中 间 形 式 ， 如 Elias- 或 Elias-y 编码 。 

如 9.2.3 节 所 见 ， 间 距 编 码 的 另 一 个 复杂 之 处 是 ， 倒 排 表 并 不 总 是 按 顺 序 处 理 的 ， 我们 需 
要 对 某 些 操作 进行 随机 访问 ， 特 别 是 在 解决 短语 查询 时 。 一 个 解决 方法 是 ， 在 列表 中 以 规律 的 
间隔 保存 数字 的 绝对 值 ， 通 过 只 从 它 之 前 的 采样 点 开始 解压 缩 来 加 速 对 任意 列表 位 置 的 访问 。 

现在 我 们 考虑 用 于 排序 搜索 的 倒 排 索引 。 在 这 种 情况 下 ， 在 每 个 记录 列表 中 的 文档 并 没有 
按照 文件 标识 符 升 序 排列 ， 而 是 按照 索引 项 在 文件 中 的 频率 ， 或 者 其 他 类 似 类 型 的 权重 降序 排 
列 。 这 使 得 压缩 这 些 索引 变 得 更 加 困难 。 然 而 ， 根 据 齐 夫 法 则 E 6. 5.2 节 )， 可 以 认为 许多 
词 只 在 很 多 文件 中 出 现 一 次 ， 更 一 般 地 说 ， 在 每 个 记录 列表 中 ， 会 有 很 多 频率 一 样 的 词 。 在 这 
种 情况 下 ， 在 列表 中 出 现 频率 相同 的 那些 文件 ， 仍 然 能 够 按照 文件 标识 符 以 升序 排列 ， 这 就 使 
得 能 够 使 用 间距 编码 来 压缩 列表 的 大 部 分 。 最 近 在 【56] 中 显示 ， 降 低 索 引 项 在 列表 中 出 现 次 
数 的 精度 可 能 会 有 好 处 ， 因 为 这 会 带 来 更 好 的 压缩 效果 ， 而 不 会 显著 地 降低 检索 质量 。 


9.2.7 结构 化 查询 


在 结构 化 文本 上 进行 检索 的 算法 ， 以 及 结构 化 信息 保存 的 方式 ， 很 大 程度 上 与 每 个 检索 
模型 相关 〈 见 第 7 章 ) 。 有 些 实现 方法 建立 随机 (ad hoc) 索引 来 保存 这 个 结构 。 这 潜在 地 
最 大 化 了 灵活 性 和 效率 ， 然 而 它 需 要 额外 的 开发 和 维护 成 本 。 
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描述 任何 特定 的 方法 并 不 是 我 们 的 意图 〈 如 XPath 和 XQuery 存在 着 许多 实现 方式 )， 
但 是 我 们 希望 说 明 如 何 改造 词 寻 址 的 全 文 倒 排 索引 ， 使 之 能 够 回答 某 些 有 用 的 结构 化 查询 。 
关于 结构 化 文本 的 查询 语言 和 搜索 算法 的 更 多 细节 将 在 第 13 章 介绍 。 

让 我 们 先 假设 结构 在 文本 中 用 “标签 ”( 即 用 于 识别 结构 元 素 的 字符 串 ) 来 标记 。 这 是 
HTML 或 XML 中 的 情况 ， 但 并 不 是 程序 代码 中 的 情况 ， 在 那里 标签 是 隐 性 的 ， 并 从 编程 
语言 的 语法 中 继承 而 来 。 索 引 算法 的 主要 思想 是 像 使 用 词语 一 样 使 用 标签 。 在 标签 是 隐 性 的 
情况 下 ， 倒 排 索引 仍然 能 够 用 于 那些 实际 上 并 未 出 现在 文本 中 的 假 标签 。 在 这 步 处理 过 后 ， 
倒 排 索引 包含 了 回答 结构 化 查询 的 所 有 信息 。 

例如 ， 想 象 一 个 查询 是 “选择 类 型 A 的 结构 元 素 ， 它 包括 类 型 B 的 结构 ”。 假 设 A 类 型 (B 
也 类 似 ) 的 结构 被 标签 二 A 二 > 和 一 /A 二 包围 ， 那 么 这 个 查询 可 以 转换 成 找 出 二 A 二 后 女 着 二 B>>， 
但 两 者 之 间 没 有 二 /A 二 的 情况 。 那 些 标 签 的 位 置 可 以 通过 全 文 索 引得 到 ， 然 后 最 后 的 答案 就 可 以 
用 类 似 于 9. 2. 3 节 描 述 的 解决 短语 查询 的 算法 得 到 。 不 难看 出 ， 许 多 关于 祖先 、 后 代 、 祖 先 个 数 、 
后 代 个 数 、 文 本 顺序 等 的 查询 都 可 以 转换 成 先 对 标签 进行 搜索 ， 然 后 验证 记录 序列 。 

在 许多 情况 下 ， 这 个 技术 与 随机 索引 方法 一 样 有 效 ， 而 且 它 与 已 有 的 文本 数据 库 集 成 会 
更 方便 。 


9.3 签名 文件 


签名 文件 (signature file) 是 基于 散 列 的 面向 词 的 索引 结构 。 它 们 有 较 低 的 开销 〈 原 始 
文本 大 小 的 10% 一 20%)， 代 价 是 必须 顺序 搜索 索引 。 然 而 ， 尽 管 它们 的 搜索 复杂 度 是 线性 
的 〈 而 不 是 如 之 前 的 方法 是 次 线性 的 ) ， 但 它 的 常数 是 比较 小 的 ， 这 使 得 这 项 技术 适用 于 并 
不 十 分 大 的 文本 集 。 尽 管 倒 排 索引 在 大 多 数 应 用 中 的 效果 超过 签名 文件 ， 但 签名 文件 在 分 布 
式 环境 中 仍 会 有 一 些 应 用 ， 如 高 效 地 判断 一 个 远程 的 索引 是 否 包 含 对 应 给 定 查询 的 答案 。 

1. 结构 

签名 文件 使 用 一 个 散 列 函数 〈 或 者 叫 “ 签 名 ”) 将 词 块 映 射 成 B 位 的 位 掩 码 。 它 把 文本 
分 成 含 5 个 词 的 块 。 对 每 个 大 小 为 5 的 文本 块 ， 分 配 一 个 长 度 为 吕 的 位 掩 码 。 这 个 掩 码 是 通 
过 对 文本 块 中 的 所 有 词 的 签名 进行 按 位 或 (OR) 操作 得 到 的 。 因 此 ， 签 名 文件 不 会 比 所 有 
块 的 位 掩 码 序 列 〈 加 上 指向 每 个 块 的 指针 ) 大 。 主 要 思想 是 ， 如 果 一 个 词 出 现在 一 个 文本 块 
中 ， 那 么 在 这 个 词 的 签名 中 置 1 的 位 在 文本 块 的 位 掩 码 中 也 会 置 1。 因 此 当 某 位 在 查询 词 的 
掩 码 中 置 为 1， 而 在 文本 块 的 掩 码 中 并 未 置 1 时 ， 这 个 词 就 不 在 这 个 文本 块 中 。 图 9-10 展示 
了 一 个 签名 文件 的 例子 ， 其 中 并 未 考虑 文本 中 的 禁用 词 。 

块 1 块 2 块 3 块 4 


This is a text.| A text has many words. Words are| made from letters. 


文本 
| 000101 Ñ | 110101 [*{ 100100 | | 101101 |} 文本 签名 


h( text) =000101 

h( many > =110000 

hCwords ) =100100 签名 函数 
h( made) =001100 
hCletters ) =1 00001 


图 9-10 切 成 块 的 样 例文 本 的 签名 文件 
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然而 ， 有 可 能 尽管 词语 并 不 存在 ， 但 对 应 的 所 有 位 还 是 都 置 1 了 。 这 叫做 误 检 false 
drop) 。 在 签名 文件 的 设计 中 ， 最 精妙 的 部 分 在 于 : 它 保 证 误 检 的 概率 是 够 低 ， 同 时 保证 签 
名 文件 尽 可 能 短 。 

散 列 函数 要 求 产 生 的 位 掩 码 最 少 有 ! 位 置 1。 较 好 的 模型 假设 ! 位 是 在 掩 码 中 随机 选择 
的 (有 可 能 重复 )。 令 a 一 1:/B。 因 为 5 个 词 中 的 每 一 个 都 随机 选择 1 位置 1， 所 以 掩 码 中 某 
一 位 1 在 某 个 词 的 签名 中 也 置 1 的 概率 是 1 一 (1 一 1/B)* 人 1 一 e“”。 因 而 ， 在 查询 中 必 个 置 
1 的 随机 位 在 文本 块 的 掩 码 中 同样 置 1 的 概率 是 

(1 — ee 8 
CE a = ln(2)/8 时 取 最 小 值 。 在 最 优选 择 /一 Bln(2)/e 的 情况 下 ， 误 检 的 概率 是 
(1/21 JB = 1/2! o 

因此 ， 必 须要 决定 合适 的 B/6 比例 。 索 引 的 空间 代价 大 概 是 (1/80) X (B/2) ， 因 为 B 
的 单位 是 位 ， 而 5 是 词 的 个 数 。 然 后 ， 误 检 概 率 就 是 要 花费 的 空间 代价 的 函数 。 例 如 ，10% 
的 代价 表示 误 检 概率 接近 2%， 而 20% 的 代价 对 应 的 错误 概率 大 概 是 0.046% 。 这 里 的 错误 
概率 对 应 于 当 检 测 一 个 匹配 是 否 是 误 检 时 所 需 进 行 的 顺序 搜索 的 期 望 次 数 。 

2. 搜索 

搜索 单个 词 的 过 程 是 将 它 散 列 成 位 掩 码 W， 然 后 将 之 与 所 有 文本 块 的 位 掩 码 B; 比较 。 
4 We&B=W 时 (这 里 && 是 按 位 与 操作 )， 所 有 在 W 中 置 1 的 位 在 B 中 也 置 为 1， 因 此 文 
本 块 可 能 包含 这 个 词 。 因 此 ， 对 于 所 有 候选 的 文本 块 ， 必 须 执行 一 次 在 线 遍 历来 验证 词 确实 
是 在 其 中 。 不 同 于 倒 排 索引 ， 这 个 遍历 无 法 避免 《除非 误 检 的 风险 是 可 接受 的 ) 。 

在 这 种 方案 中 ， 无 法 搜索 其 他 类 型 的 模式 。 另 一 方面 ， 这 个 方案 对 于 短语 搜索 和 合适 的 
邻近 搜索 效率 更 高 。 这 是 因为 ， 所 有 的 词 都 必须 出 现在 块 中 ， 使 得 这 个 块 能 够 包含 短语 查询 
或 者 邻近 查询 。 因 此 ， 对 所 有 查询 掩 码 的 按 位 或 结果 进行 搜索 ， 它 们 的 所 有 置 1 位 都 必须 出 
现 。 这 减少 了 误 检 的 概率 。 这 是 唯一 在 短语 搜索 中 能 提高 性 能 的 索引 方案 。 

然而 ， 需 要 注意 检测 块 边 界 ， 以 避免 丢失 跨 块 的 短语 。 为 了 能 够 搜索 ; 个 词 的 短语 或 者 
j 个 词 内 邻近 的 短语 ， 相 领 的 块 必须 重 善 j 一 1 个 词 。 

如 果 块 对 应 于 检索 单元 ， 那 么 通过 限制 相关 的 词 都 在 一 个 块 中 ， 可 以 提高 词 或 短语 的 简 
单 布尔 合 取 操作 的 性 能 。 

我 们 只 能 找到 来 自 1992 年 的 真实 的 性 能 估计 ， 它 在 一 台 带 有 本 地 磁盘 的 Sun 3/50 机 器 
上 运行 。 在 一 个 2. 8MB 的 小 型 数据 库 上 的 查询 时 间 为 0. 42 秒 。 外 推 到 当今 的 技术 ， 我 们 发 
现 性 能 大 概 接 近 每 秒 20MB ( 它 是 线性 时 间 的 )， 因 此 在 250MB 的 文本 上 大 概 需 要 12 秒 ， 
这 是 十 分 慢 的 。 

3. 构建 

构建 签名 文件 相对 简单 。 将 文本 简单 地 切 成 块 ， 给 每 个 块 生成 一 个 签名 文件 条 目 。 这 个 
条 目 是 对 块 中 所 有 词 的 签名 进行 按 位 或 操作 得 到 的 。 

增加 文本 也 很 简单 ， 因 为 只 需要 向 签名 文件 中 添加 记录 即 可 。 文 本 删除 通过 删除 合适 的 
位 掩 码 来 实现 。 

除了 把 所 有 的 位 掩 码 按 顺 序 保 存 外 ， 还 有 其 他 的 保存 方案 。 例 如 ， 可 以 对 掩 码 中 的 每 一 
位 用 不 同 的 文件 保存 ， 如 一 个 文件 保存 所 有 的 第 一 位 ， 另 一 个 文件 保存 所 有 的 第 二 位 …… 这 
减少 了 搜索 查询 的 磁盘 时 间 ， 因 为 只 需 遍 历 那 些 在 查询 中 被 置 为 1 的 :位 所 对 应 的 文件 。 

4. 压缩 

有 许多 替代 方法 可 以 压缩 签名 文件 。 所 有 这 些 方法 都 基于 这 样 一 个 事实 : 在 整个 文件 中 
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只 有 一 些 位 是 置 1 的 。 那 么 就 有 可 能 使 用 一 些 高 效 的 方法 对 未 置 1 的 位 进行 编码 ， 如 游程 编 
码 (run-length encoding)。 如 果 文 件 是 以 位 掩 码 的 序列 形式 保存 ， 或 者 按 每 位 一 个 文件 的 
形式 保存 ， 那 么 就 会 有 不 同 的 考虑 。 这 些 压缩 方法 可 以 减少 空间 使 用 和 硬盘 访问 时 间 ， 或 者 
在 保持 间 样 的 空间 代价 时 增加 位 掩 码 B 的 长 度 ( 以 此 降低 误 检 的 概率 )。 曾 经 有 人 报告 其 压 
缩 率 接近 70%，。 


9.4 ”后缀 树 和 后 缀 数组 


倒 排 索引 到 目前 为 止 仍然 是 推荐 的 信息 检索 系统 实现 方案 。 然 而 ， 它 也 有 些 局 限 性 。 文 
本 必须 能 够 方便 地 解析 为 词 的 序列 ， 这 样 查询 检索 到 的 结果 只 能 是 整个 词 或 者 是 由 此 组 成 的 
短 序列 。 而 且 ， 不 应 该 有 太 多 不 同 的 词 ， 否 则 像 词 汇 表 这 样 的 结构 就 会 增长 得 过 快 ， 效 率 就 
会 大 幅度 地 下 跌 。 

所 有 这 些 条 件 在 许多 语言 〈 特 别 是 西方 语言 ) 中 都 满足 ， 但 并 不 是 人 全部。 例如， 芬兰 语 
和 德语 是 黏着 语 ， 这 意味 着 短 的 语素 (partide) 连接 起 来 才 形 成 长 的 词 ， 它 相当 于 英语 中 
的 短语 。 通 常 我 们 不 会 检索 那些 长 词 ， 而 是 检索 这 些 短 的 语素 。 自 然 语言 解析 工具 可 以 用 于 
分 割 这 些 语 素 ， 但 是 更 简单 、 更 健壮 的 选择 是 允许 查询 文本 的 任何 子 串 ， 而 不 是 定位 到 
词语 。 

类 似 的 问题 也 出 现在 一 些 东 方 语言 中 ， 如 中 文 、 日 语 和 韩语 。 那 些 文本 是 在 一 个 很 大 的 
字母 表 上 的 序列 ， 在 很 多 情况 下 每 个 符号 都 是 表意 文字 。 人 类 从 符号 的 序列 中 区 分 出 词语 ， 
因为 他 们 理解 文本 ， 但 自动 分 词 仍然 是 一 个 悬而未决 的 研究 问题 。 而 且 ， 对 于 那些 语言 ， 
壮 的 解决 方案 是 让 用 户 能 够 对 符号 流 的 任意 子 串 都 能 搜索 。 

最 后 ， 有 一 些 与 信息 检索 无 关 的 应 用 ， 但 也 存在 子 串 搜索 的 问题 ， 如 计算 生物 学 
(DNA 或 蛋白 质 序列 ) 、 音 乐 数 据 库 MD FAD $. 

在 9.5 节 ， 我 们 将 给 出 在 文本 中 找 出 任何 子 串 或 者 复杂 模式 的 算法 。 然 而 ， 搜 索 时 间 随 
着 数据 库 的 大 小 按 比例 增长 ， 因 而 这 些 方案 并 不 适合 很 大 的 文本 集 。 后 级 树 和 后 缀 数组 使 得 
能 够 通过 索引 搜索 匹配 查询 字符 串 或 复杂 模式 的 任何 文本 子 串 ， 同 时 搜索 时 间 的 增长 速率 低 
于 文本 集 的 增长 。 

这 些 索引 将 文本 看 做 一 个 长 字符 串 。 文 本 中 的 每 个 位 置 当做 一 个 文本 后 缀 〈 即 从 那个 文 
本 位 置 到 文本 末尾 的 字符 串 ) 。 例 如 ， 如 果 文 本 是 “missing mississippi”, IA ERME: 

issing mississippi 

ssıng mississippi 

sing mississippi 

ing mississippi 

ppi 

pi 

不 难看 出 ， 从 不 同位 置 开 始 的 后 缀 是 不 同 的 ， 它 们 可 以 按 字 母 进行 比较 AE, RANE 
文本 的 最 后 加 上 了 一 个 “$$ ”字符 ， 它 比 其 他 字符 都 小 ) 。 每 个 后 缀 被 它 的 起 始 位 置 唯一 地 
确定 。 

并 不 是 所 有 的 文本 位 置 都 需要 索引 。 特 别 地 ， 如 果 是 在 英文 文本 上 只 索引 单词 开头 的 情 
况 ， 那 么 产生 的 索引 及 其 功能 就 与 9. 2. 2 节 描 述 的 全 文 倒 排 索引 相当 类 似 了 。 因 为 倒 排 索引 
在 很 多 方面 更 方便 ， 所 以 我 们 将 关注 在 倒 排 索引 不 能 使 用 的 情况 下 如 何 使 用 后 缀 树 和 后 级 数 
组 。 值 得 提 到 的 是 ， 后 缀 树 和 后 缀 数组 在 搜索 长 短语 方面 比 倒 排 索引 的 效果 更 好 ， 因 为 与 搜 
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索 词 语 相 比 ， 长 短语 并 不 需要 什么 特别 对 待 。 接 下 来 我 们 假设 所 有 的 文本 位 置 都 被 索引 。 
9.4.1 结构 : trie 树 和 后 缀 树 


1. trie 

让 我 们 首先 简单 地 回顾 一 下 什么 是 trie 数据 结构 。trie 也 叫做 数字 搜索 树 ， 是 一 个 多 叉 树 ， 
它 保存 字符 串 集 合 ， 并 能 够 在 与 字符 串 长 度 成 正比 的 时 间 内 检索 任何 字符 串 〈 与 保存 的 字符 串 
个 数 无 关 ) 。 特 殊 字 符 “$ ”被 加 到 每 个 字符 串 的 末尾 ， 以 此 来 保证 没有 任何 一 个 字符 串 是 另 
一 个 的 前 级 。 在 字符 串 集合 全 二 {P ，…P.) 上 的 trie 树 是 一 个 识别 已 | …| P, 的 树 形 DFA ( 见 
9. 5.4 节 )。 因 此 ， 在 PP 中 查找 一 个 字符 串 相当 于 决定 这 个 DFA 是 否 能 识别 这 个 字符 串 。 

EASA LE. GR trie} (suffix trie〉 是 在 文本 械 二 to*…*t, ,ta 二 “$$ ”的 所 有 后 缀 字符 
串 上 建立 的 trie 数据 结构 。 指 向 这 些 后 缀 eet, 的 指针 保存 在 最 终 状 态 〈 即 树 的 叶子 )。 为 
了 减少 trie 树 中 的 结 点 个 数 ， 后缀 trie 树 移 除 了 所 有 在 叶子 结 点 结束 的 无 分 支 路 径 。 
图 9-11a 展 示 了 这 个 情况 。 例 如 ， 如 果 我 们 沿 着 从 根 到 叶子 标记 为 “sing” 的 路 径 走 ， 那 么 
我 们 看 见 路 径 在 “sin” 之 后 就 被 截断 了 。 原 因 是 在 文本 中 只 出 现 过 一 次 “sin”， 所 以 对 应 于 
后 级 “sing mississippi” 的 无 分 支 路 径 在 那个 点 被 截断 了 。 但 还 是 可 以 通过 回 到 文本 位 置 4， 
并 从 那里 开始 读 后 缀 来 恢复 整个 后 缀 。 
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图 9-11 XÆ “missing mississippi” 1/54 trie a) MERR b) 。 两 种 情况 下 我 们 都 用 灰色 显示 了 搜 
索 “iss” 时 到 达 的 结 点 
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2. ARB 

为 了 进一步 碱 小 所 需要 的 空间 ， 可 以 压缩 所 有 剩余 的 无 分 支 路 径 。 压 缩 的 结果 就 是 后 缓 
+} (suffix tree) 。 因 为 有 7 个 叶子 ， 同 时 每 个 内 部 结 点 至 少 有 两 个 子 结 点 ， 所 以 后 缀 树 的 总 
大 小 是 O(n) 。 后 缀 树 中 的 边 一 般 是 用 字符 串 来 标记 。 那 些 标签 可 以 用 指向 字符 串 在 文本 中 
的 记录 指针 和 它 的 长 度 来 表示 ， 只 占用 常数 级 的 空间 ， 如 图 9-11b 所 示 。 

后 缀 树 的 问题 就 是 它 占用 的 空间 。 根 据 不 同 的 实现 ， 后 缀 树 占用 文本 自身 大 小 的 10 一 
20 倍 的 空间 。 例 如 ，1GB 文本 的 后 缀 树 将 需要 至 少 10GB 的 空间 。 此 外 ， 后 缀 树 在 辅助 存 
储 器 中 表现 得 并 不 好 ， 因 此 它 只 对 相对 较 小 的 文本 比较 有 吸引 力 。 

后 缓 数组 (suffix array) 提供 了 与 后 缀 树 基 本 一 样 的 功能 ， 但 是 需要 的 空间 要 小 得 多 。 
如 果 后 组 树 结 点 的 子 结 点 按照 字典 顺序 从 左 向 右 排 列 边 标签 ， 那 么 后 缀 数组 就 通过 从 左 向 右 
ARR A ee SS). BAR, TORR LAST 的 所 有 后 缀 的 
数组 ， 这 里 后 缀 已 经 按照 字典 顺序 排列 ， 如 图 9-12 所 示 。 
1 2 345567 891011121314151617181920 
missing_ts si ssippi$ 

TAO 1 12 13 14 15 16 17 18 19 20 

[10| 119] 6 [18117] 4 [15] 12/3 [14] 11] 









图 9-12 XÆ “missing mississippi” 的 后 缀 数组 。 箭 头 显示 了 模式 “iss” 的 出 现 记 录 


后 缀 数组 占用 的 空间 通常 是 文本 的 4 倍 ， 这 使 得 它 对 长 文本 更 有 吸引 力 (在 9. 4.5 节 ， 
我 们 将 展示 后 缀 数组 可 以 进一步 压缩 5。 作为 代价 ， 后 缀 数组 要 比 后 缀 树 慢 一 点 儿 。 在 一 些 
论文 中 ， 后缀 树 和 后 缀 数组 叫做 PAT 树 和 PAT 数组 。 


9.4.2 简单 字符 串 搜索 


尽管 在 实现 时 ， 通 常 后 级 树 比 后 缀 trie 树 更 受 推荐 ， 但 是 大 多 数 算法 先 在 后 缀 trie WE 
解释 更 为 简单 。 匹 配给 定 模 式 P= pi poe pw 的 所 有 文本 子 串 的 主要 性 质 是 : 每 个 文本 子囊 
都 是 一 个 文本 后 缓 的 前 级 。 因 此 我 们 在 后 缀 trie 树 中 寻找 所 有 以 PKR. 

其 主要 思想 是 ， 按 照 已 中 的 字符 ， 在 trie 树 中 往 下 走 。 这 使 得 我 们 到 达 所 有 以 已 开始 
的 trie 树 后 缀 都 需要 经 过 的 最 后 一 个 结 点 。 从 那个 结 点 往 下 的 叶子 结 点 保存 了 以 P 开始 的 
后 缀 的 起 始 位 置 。 也 就 是 说 ， 它 们 明确 地 指向 了 在 中 的 记录 位 置 。 

Hja, A P= “is” PME 9-11 中 的 文本 来 说 ,我 们 用 P 中 的 连续 字符 驱动 搜索 过 程 ， 
从 trie 树 的 根 开始 往 下， 并 最 终 达 到 灰色 的 结 点 。 然 后 我 们 考察 以 灰色 结 点 为 根 的 子 树 的 叶 
子 ， 并 找到 所 有 三 在 工 中 的 记录 : 位 置 2、13 和 10。 

这 个 搜索 过 程 有 其 他 可 能 的 输出 : 可 能 在 trie 树 上 没有 路 径 能 够 拼写 出 已 ， 或 者 在 我 们 
读 完 P 前 就 到 达 了 叶子 结 点 。 在 第 一 种 情况 下 ， 我 们 知道 P 并 未 出 现在 T 中 (因为 没有 任 
何 了 的 后 缀 以 P 开始 ) 。 在 第 二 种 情况 下 ， 假 如 已 是 当 我 们 到 达 trie 树叶 子 结 点 时 已 经 读 过 
PHM. RRR PET 中 只 出 现 过 一 次 。P' 的 出 现 位 置 接 下 来 的 字符 可 能 与 P 一 
样 ， 也 可 能 不 一 样 。 我 们 必须 直接 到 叶子 结 点 所 指向 的 位 置 ， 验 证 工 中 是 否 出 现 P。 

如 果 搜 索 是 在 后 缀 树 上 进行 的 ， 那 么 问题 会 有 另外 的 复杂 性 : 因为 边 是 用 字符 串 标 记 
的 ， 而 不 是 用 单个 字符 。 然 而 ， 对 于 从 某 个 结 点 出 发 的 标记 边 的 所 有 字符 串 ， 它们 的 第 一 个 
字符 是 不 一 样 的 。 因 此 ， 在 任意 一 个 结 点 ， 最 多 只 能 沿 着 一 条 边 走 。 要 想 沿 着 某 一 条 边 走 ， 
边 上 所 有 的 字符 必须 都 匹配 P。 也 有 可 能 在 完全 遍历 完 一 条 边 之 前 ,模式 PP 就 用 完了 。 在 
这 种 情况 下 ， 答 案 就 是 以 目标 结 点 为 根 的 整个 子 树 。 


SIR 索引 和 搜索 - 267 


例如 ， 在 图 9-11b 中 ， 如 果 搜 索 “iss”， 那 么 我 们 首先 用 第 一 个 字符 “让 来 向 下 走 。 然 
后 ， 我 们 应 该 尝试 通过 标记 为 “ssi” 的 边 来 向 下 走 。 这 些 字符 匹配 模式 “iss”， 但 是 它 在 读 
完整 个 边 标 签 前 就 结束 了 。 不 管 怎样 ， 我 们 往 下 走 到 灰色 结 点 ， 并 找到 正确 的 答案 。 

图 9-13 给 出 了 后 级 树 搜索 的 伪 代 码 。 如 果 离 开 每 个 结 点 的 边 都 被 组 织 起 来 ， 使 得 能 够 在 
常数 时 间 内 通过 这 些 边 的 第 一 个 字符 搜索 到 相应 的 边 〈 例 如 ， 用 一 个 由 第 一 个 字符 索引 的 数 
组 )， 那 么 后 缀 树 能 在 Olm) 时 间 内 返回 带 答案 的 子 树 。occ 个 记录 能 在 Olocc) 时 间 内 获得 。 


Suffix-Tree-Search (S, P = pip2...pm) 





HY iel 
while true do { 





( 
(2) 
(3) if S is a leaf pointing to j then { 
(4) if Pi. --Pm = tj+i-1 ---tj+m 1 
(5 then return S 
(6 else return null 
} + g 
(7 if there is an edge S 2 S' A p| =p; then { 
(8 7 二 0 
(9 while j<s AN i+j<mQA pi,,=pi4j do j—jtl 
(10) ee 
(11) if i>m then return S’ 
(12) if j <s then return null 
(13 S-_S' 


} 


(14) else return null 











图 9-13 后缀 树 搜索 字符 串 已 的 伪 代 码 。 它 返回 以 答案 为 根 的 子 树 ， 
如 果 不 存 在 的 话 则 返回 null 


搜索 后 缀 数组 略 有 不 同 。 因 为 所 有 以 P 为 前 缀 的 后 缀 在 词典 顺序 上 是 连续 的 ， 所 以 我 
们 能 够 通过 两 次 二 分 查找 ， 找 到 以 P 为 前 缀 的 第 一 个 和 最 后 一 个 后 级 ， 找 到 包含 所 有 答案 
的 后 缀 数组 区 间 。 图 9-12 展示 了 一 个 区 间 结 果 。 注 意 ， 在 这 个 二 分 搜索 的 每 一 步 中 都 需要 
将 P 和 一 个 文本 后 级 比较， 因而 搜索 的 代价 是 OC(mlogn) 。 


9. 4.3 复杂 模式 的 搜索 


通常 ， 用 后 缀 trie 树 搜索 复杂 模式 是 通过 模拟 对 应 的 序列 算法 和 在 trie 树 上 回溯 来 实现 
的 。 例 如 ， 假 设 希望 搜索 某 个 正则 表达 式 ， 我 们 如 9. 5. 4 节 介 绍 的 那样 建立 它 的 自动 机 ， 但 
并 不 加 入 自 环 〈self-loop)。 我 们 将 检测 到 所 有 以 匹配 正则 表达 式 的 字符 串 开 头 的 文本 后 组 。 

因为 这 个 原因 ， 算 法 从 trie 树 的 根 结 点 开始 。 对 于 当前 结 点 的 每 个 标签 为 字符 “ 的 子 结 
点 ， 向 自动 机 输入 c<， 然 后 算法 递归 地 进入 子 树 。 当 递归 从 子 树 中 返回 时 ， 恢 复 自 动机 在 输入 < 
前 的 状态 。 这 个 过 程 对 当前 结 点 的 每 个 子 结 点 重复 进行 。 搜 索 以 下 面 三 种 可 能 的 形式 停止 : 

D 自动 机 耗 尽 了 所 有 的 活路 状态。 这 意味 着 ， 从 当前 结 点 下 来 没有 任何 叶子 结 点 能 够 
匹配 正则 表达 式 。 因 此 ， 我 们 抛弃 当前 分 支 ， 返回 到 父 结 点 。 

2) 自动 机 到 达 结 束 状 态 。 这 意味 着 ， 从 当前 结 点 下 来 的 所 有 叶子 都 是 以 匹配 正则 表达 
式 的 字符 串 开 头 的 后 缀 。 所 以 我 们 输出 保存 在 叶子 结 点 中 的 所 有 文本 位 置 ， 并 返回 到 父 
结 点 。 

3) 到 达 trie 树 的 叶子 结 点 。 这 意味 着 ， 我 们 必须 在 文本 中 继续 验证 ， 直 到 自动 机 到 达 
了 终结 状态 或 者 耗 尽 了 所 有 的 活跃 状态 。 

已 经 证 明 ， 对 于 随机 的 文本 ， 只 和 需要 遍历 OCr'polylog(n)) 个 结 点 ， 其 中 Oal, a HK 
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” 赖 于 正则 表达 式 。 这 个 搜索 时 间 对 于 大 多 数 感 兴趣 的 正则 表达 式 是 次 线性 的 (如果 a 二 1)。 


扩展 的 模式 也 可 以 通过 把 它们 当做 正则 表达 式 用 同样 的 方式 来 搜索 。 

带 索 引 的 容错 度 为 上 的 近似 字符 串 匹配 ( 见 9. 5. 6 节 ) 也 可 以 用 同样 的 思想 实现 。 我 们 
使 用 同样 的 回潮 方法 ， 但 在 运行 算法 时 ， 计 算 匹 配 trie TRAM P 所 产生 的 错误 个 数 。 为 此 ， 
必须 对 式 (9-2) 中 C 的 循环 进行 改变 ， 使 初始 化 第 一 行 时 Co, 二 ;。 当 从 字符 c 向 下 走 ， 就 
会 根据 c 计算 和 矩阵 C 的 一 个 新 列 。 当 列 中 所 有 的 值 都 超过 & 时 ， 就 抛弃 一 个 分 支 ; 如 果 最 后 
一 列 的 最 后 一 个 单元 的 值 并 未 超过 &， 那 么 输出 所 有 的 叶子 结 点 。 对 于 基于 自动 机 的 近似 搜 
索 ， 这 个 过 程 与 基于 自动 机 的 正则 表达 式 搜索 一 致 。 

在 trie 树 上 的 近似 搜索 深度 不 会 超过 m 十 k， 因 此 ， 对 于 足够 短 的 模式 ， 时 间 复 杂 度 独 
立 于 文本 大 小 (因为 我 们 不 可 能 访问 超过 Ole") 个 结 点 ) 。 对 于 长 模式 ， 在 搜索 时 间 上 依 
Mim 的 指数 复杂 度 就 越 来 越 明 显 ， 这 样 就 必须 使 用 其 他 方法 了 。 一 个 高 效 的 技术 就 是 将 P 
分 割 成 7 分 片 ， 对 每 个 分 片 的 搜索 允许 | &/i 个 错误 ， 然 后 直接 在 文本 中 验证 分 片 的 邻 域 ， 
从 而 得 到 整个 P 的 记录 。 这 是 对 序列 搜索 技术 的 扩展 。 如 果 合 理 选择 7， 可 以 得 到 平均 的 搜 
索 时 间 是 OCn*poly(m)) ， 其 中 对 于 足够 小 的 k/m， 有 a 二 1。 

后 缀 树 能 够 执行 我 们 还 未 考虑 过 的 其 他 复杂 搜索 。 这 些 特别 的 操作 在 一 些 特 别 的 应 用 中 
Am. BENTE: 找 出 在 文本 中 出 现 多 于 一 次 的 最 长 子 串 〈 即 最 深 的 后 缀 trie 树 结 点 )， 
找 出 固定 长 度 的 最 常见 子 串 等 。 

我 们 所 介绍 的 用 于 后 缀 trie 树 的 算法 显然 可 以 用 于 后 缀 树 。 它 们 同样 也 适用 于 后 缀 数 
组 ， 不 过 增加 了 一 个 O(logn) 的 时 间 惩 罚 因 子 。 每 个 后 缀 trie 树 结 点 对 应 于 一 个 后 缀 数组 区 
间 ， 这 个 区 间 包 含 以 此 结 点 为 根 的 子 树 的 所 有 叶子 。 如 果 从 trie 树 的 根 到 某 结 点 的 路 径 拼 写 
出 了 字符 串 S， 那 么 对 应 的 后 级 数组 区 间 就 是 那些 以 S 开始 的 后 缀 。 根 结 点 对 应 于 整个 后 缀 
数组 ， 叶 子 对 应 于 单个 数组 单元 。 我 们 通过 维护 对 应 于 当前 后 组 trie 树 结 点 的 数组 区 间 来 模 
拟 后 缀 数组 遍历 。 在 根据 字符 c 在 后 缀 trie 树 中 从 一 个 结 点 往 下 走 的 时 候 ， 我 们 二 分 查找 当 
前 的 后 缀 数组 区 间 所 对 应 的 子 区 间 。 


9.4.4 构建 


一 段 包 含 个 字符 的 文本 可 以 在 O(n) 时间 建立 其 后 纺 树 。 然 而 ， 如 果 内 存 无 法 放下 后 
缀 树 ， 那 么 这 个 算法 的 性 能 将 很 差 ， 当 后 缀 树 需 要 大 量 空 间 时 更 是 如 此 。 这 个 算法 的 参考 文 
献 将 在 本 章 的 最 后 给 出 。 

我 们 关注 直接 构建 后 缀 数组 。 因 为 后 缀 数组 是 以 字典 序 排列 的 文本 指针 的 集合 ， 所 以 生 
成 它 的 一 个 简单 方法 就 是 ， 用 任何 经 典 的 排序 方法 ， 按 字典 序 排列 所 有 指针 所 指向 的 后 级 。 
注意 ， 为 了 在 这 个 排序 中 比较 两 个 后 级 数 组 条 目 ， 必 须 访问 对 应 的 文本 位 置 。 这 些 位 置 基本 
上 是 随机 的 。 所 以 ， 即 使 使 用 外 存 排序 算法 ， 至 少 文本 应 该 保存 在 内 存 中 ， 以 便 得 到 可 接受 
的 性 能 。 一 个 好 的 排序 算法 需要 OCnlogn) 次 字符 串 比 较 ， 以 及 平均 Olnlog*n) 的 时 间 。 

不 幸 的 是 ， 如 果 文 本 包含 很 长 的 重复 子 串 ， 那 么 这 个 简单 的 构建 方法 就 会 彻底 失败 ， 因 
为 在 某 些 时候 ， 将 比较 两 个 从 重复 串 开 始 的 后 缀 ， 而 这 些 比 较 需 要 检验 很 多 字符 才能 确定 字 
上 典 顺 序 。 

有 一 些 为 后 缀 数组 特别 设计 的 更 强大 的 排序 算法 ,在 本 章 最 后 将 给 出 一 些 参 考 文献 。 大 
多 数 算法 的 主要 想法 是 : 如 果 知 道 toi ti ta Mt St ， 那 么 我 们 不 用 比较 那些 后 缀 
就 可 以 推断 出 二 所 < 二 全 吉 。 例 如 ， 假 设 所 有 的 后 缀 已 经 按照 它们 前 2 和 :个 字符 排序 。 那 
么 ， 不 需要 任何 字符 串 比 较 就 可 以 通过 它们 的 前 2 个 字符 对 它们 排序 。 假 设 我 们 在 一 个 后 
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缀 数组 区 域 中 ， 其 中 所 有 后 缀 的 前 2 个 字符 是 相同 的 ， 我 们 想 要 完善 它 ， 使 之 形成 一 些 所 
有 后 缀 的 前 2 个 字符 都 相同 的 桶 。 为 了 确定 tetara EE tetje -12s 相等 还 是 大 ， 我 
们 只 需要 找 出 〈 如 用 反 疝 排列 ) az ee tine 的 桶 是 在 六 2 52 的 桶 之 前 、 一 样 还 是 
之 后 。 基 于 这 个 思想 ， 以 不 同 的 方式 创建 了 不 同 的 算法 。 现 在 已 经 有 十 分 快速 的 算法 ， 人 允许 
很 长 的 重复 子 串 ， 并 且 只 需要 很 少 的 额外 空间 用 于 构建 。 

对 大 文本 构建 后 缀 数组 

上 面 的 算法 假设 文本 能 够 放 入 内 存 中 。 当 这 个 条 件 不 满足 时 ， 就 需要 一 个 针对 外 存 的 特 
定 算法 。 我 们 展示 一 个 在 实际 中 表现 很 好 的 算法 。 

这 个 算法 把 文本 分 割 成 能 够 在 内 存 中 排序 的 块 。 然 后 ， 对 于 每 个 块 ， 它 在 内 存 中 建立 块 
的 后 缀 数组 ， 并 与 前 面 的 文本 块 建立 的 后 缀 数组 进行 合并 。 即 

D 为 块 1 建立 后 缀 数组 。 

2) 为 块 2 建立 后 缀 数组 。 

3) 合并 块 1 和 块 2 的 后 缀 数组 。 

4) 为 块 3 建立 后 缀 数组 。 

D 合并 块 3 和 块 1 十 2 的 后 缀 数组 。 

O 为 块 4 建立 后 缀 数组 。 

D 合并 块 4 和 块 1 十 2 十 3 的 后 缀 数组 。 

8) .s.... 

困难 的 部 分 在 于 ， 如 何 把 对 应 于 块 1、2、…、i 一 1 的 较 大 的 后 缀 数组 LA (已 经 建立 ) 
与 对 应 于 块 i 的 较 小 的 后 缀 数组 SA 〈 刚 建立 ) 合并 。 朴 素 的 合并 方法 还 是 需要 比较 文本 位 
置 ， 这 些 位 置 遍布 在 大 量 文本 中 ， 所 以 这 个 内 存 问 题 还 是 存在 。 解 决 方案 就 是 先 确定 有 多 少 
个 LA 的 元 素 将 放 到 SA 中 两 个 连续 元 素 之 间 ， 然 后 用 这 些 信息 来 合并 数组 ， 而 不 用 访问 文 
本 。 这 些 信息 保存 在 一 个 计数 数组 C 中 , Cli] 表示 有 多 少 个 LA 的 后 级 按 字典 序 排 在 SALZ] 
和 SAL +1] 之 间 。 一 旦 C 计 算出 来 了 ，LA 和 SA 只 用 一 次 顺序 扫描 就 可 以 方便 地 合并 起 
来 ， 扫 描 期 间 把 数组 内 容 追 加 到 初始 为 空 的 输出 中 : 

D 32M LA PR CLO] 个 元 素 。 

2) 追加 SALI]. 

3) 追加 LA 中 接 下 来 的 CL1] 个 元 素 。 

4) 追加 SA[2] 。 

5) 追加 LA 中 接 下 来 的 CL2j 个 元 素 。 

6) 追加 SA[3]. 

7) eee 

剩 下 的 关键 点 就 是 如 何 计算 计数 数组 C。 这 不 用 访问 LA RRS. A, E 
应 LA 的 文本 《〈 即 工 的 前 ;一 1 块 ) 顺序 读 人 内 存 中 。 并 在 SA 中 搜索 文本 的 每 个 后 缀 (在 
内 存 中 )。 一 旦 确定 文本 后 缀 按 字典 序 位 于 SALj] 和 SAL[j 十 1] 之 间 ， 我们 对 Cy] 的 值 加 1。 
图 9-14 展示 了 对 一 个 块 的 整个 处 理 过 程 。 

这 个 算法 的 MO 代价 是 OC(n*/M) ， 这 里 的 M 是 进程 中 可 用 的 内 存 数量 。CPU 的 代价 
是 O(n?log(M)/M) 。 这 两 个 代价 远 不 是 最 优 的 ， 但 是 这 个 算法 在 大 多 数 实际 情况 中 表现 得 
都 非常 好 。 

注意 ， 同 样 的 算法 可 以 用 于 索引 维护 。 如 果 将 一 个 大 小 为 对 的 新 文本 加 入 数据 库 中 ， 那 么 
它 能 像 之 前 一 样 分 成 块 ， 然 后 按 块 合并 到 当前 的 后 缀 数组 中 。 这 将 花费 OCm'log(M)/M) 的 
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a) 短文 本 b) 
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短 后 缀 数组 
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短文 本 LA 
o | s 长 后 组 数组 | 


短 后 缀 数组 
C 


计数 器 H 最 终 后 级 数组 | 


图 9-14 ”对 大 文本 构建 后 组 数组 的 步骤 ， a) 建立 局 部 后 组 数组 SA; bD 计算 计数 数组 C: 
c) Ft a RB SA ALA 
CPU 时 间 。 为 了 删除 某 些 文本 ， 需 要 进行 一 次 OC) 时 间 的 数组 遍历 ， 删 除 所 有 在 需要 删除 
的 区 域 中 的 文本 位 置 ， 然 后 把 剩 下 的 位 置 压缩 成 一 个 连续 的 数组 。 



































9.4.5 Reh eRe 


Je RB HY TOE, AA BA ae 8 Js SRS, MAE RE 
够 重新 产生 文本 子 串 ， 因 此 并 不 需要 保存 文本 。 这 就 叫做 自 索 引 (self-indexes) 。 

正如 9. 4 节 提 到 的 ,后缀 数组 的 一 个 重要 问题 就 是 它们 的 空间 需求 很 大 。 直 到 数 年 之 
前 ， 后 缀 数组 一 直 认 为 是 基本 上 随机 排列 的 ， 因 而 不 可 压缩 。 但 这 个 情况 从 2000 年 开始 
大 大 地 改变 了 ， 当 时 几 个 几乎 同时 出 现 的 研究 成 果 表 明 ， 后 缀 数组 实际 上 是 可 以 高 度 压 
缩 的 。 

再 次 看 图 9-12 中 的 后 缀 数组 ， 称 之 为 A[1,nj] 。A[15. .17] 的 值 是 4、15、12。 所 有 值 
wil, 同样 的 序列 在 A[18..20] 也 发 现 了 ; ER 1, Æ A[7..9] 又 发 现 了 。 通 过 观察 
图 9-11， 不 难看 出 这 个 规律 的 原因 : KE A[15.. 17] 对 应 于 通过 字符 串 “si” 所 到 达 的 后 缀 
树 的 子 树 。 因 为 文本 中 所 有 的 “si” 都 以 “s” 为 前 导 ， 所 以 “ssi” 的 子 树 包 括 了 “si” 的 位 
置 平移 1 的 位 置 。 对 于 “issi” 也 是 同样 的 道理 。 

如 果 压 缩 器 从 后 往 前 读 取 文本 ， 那 么 它 能 够 知道 ， 每 当 读 到 “si”( 反 序 ) 时 ， 接 下 来 
它 看 到 的 字符 将 是 “s”， 然 后 是 “i”。 这 与 6. 8. 3 节 介 绍 的 & 阶 压缩 相关 。 已 证 实 ， 那些 能 
被 高 阶 压 缩 器 压缩 的 文本 ， 其 后 缀 数组 会 有 更 多 像 上 面 所 说 的 那 种 规律 。 通 过 利用 这 些 规 
律 ， 可 压缩 文本 的 后 缀 数组 也 能 被 压缩 。 

我 们 接 下 来 说 明 后 缀 数组 压缩 的 两 种 主要 方法 。 对 用 那些 使 用 压缩 技术 的 后 缀 数组 进 
行 操作 实际 上 比 不 使 用 压缩 的 后 缀 数组 要 慢 。 然 而 ， 当 文本 太 大 ， 以 至 于 它 的 后 缀 数组 
无 法 放 到 内 存 中 时 ， 压 缩 的 形式 可 能 是 相当 合算 的 ， 因 为 它 避 免 借 助 磁盘 来 搜索 文档 集 。 
与 压缩 的 倒 排 索引 的 例子 相反 ， 在 磁盘 上 使 用 后 缀 数组 索引 〈 压 缩 或 未 压缩 的 ) 并 没有 
很 多 的 发 展 。 

1. GAY Be 

fay SCH Bl BRE TK BA v Ag, ex F 

ALW@] = Afi]+1 
KH, 4Ali]=nW, ALVO)]=1. BRB, VO 表示 A 中 当前 元 素 的 值 加 1 所 对 应 
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的 元 素 在 数组 中 的 位 置 。 图 9-15 说 明了 AHH. UR VG) —vG—D 的 值 。 


12345 67 8 9 10t1121314151617181920 
T missing—mississippi 








1 2 一 4 m 6 D 8 9 10 11 12 13 14 15 16 17 18 19 20 











Y wi T = 1 | 12| 14 |18 |19 | 20 poper 











9-15 IREA RAY, AB diff = (一 (i 一 (diff(1) = 更 (1)) 。 我 
MIER E T AA H A k FA H BS S A YK SR 


Vv 的 一 些 属性 在 图 中 比较 明显 ， 也 不 难 证 明 。 第 一 ， 在 后 缀 以 同样 的 字符 开始 的 区 域 
中 ，Y 的 值 是 递增 的 ， 基 此 它 可 以 分 割 成 o 个 递增 的 区 间 。 然 后 就 可 以 用 它 的 第 一 个 绝对 值 
和 在 相 邻 数字 间 的 〈 正 ) 间距 来 代表 每 个 区 间 。 如 果 对 这 些 间 距 使 用 Elias-6 编码 ( 见 9. 2. 6 
节 )， 那 么 平 就 可 以 粗略 地 压缩 成 文本 的 零 阶 粹 (把 它 看 做 字符 的 序列 ， 见 6. 8. 3 节 )。 第 
二 ， 在 我 们 之 前 指出 的 规律 出 现 的 区 域 (这 个 例子 中 是 A[18..20] 相对 于 A[15..17]， 
A[7. .9] 相 对 于 A[18.. 20]) ， 它 满足 条 件 : VO) -—VG-1 = 1 。 这 使 得 能 够 对 Vv 的 差分 
编码 中 的 多 个 1 使 用 游程 压缩 算法 。 把 这 两 种 技术 结合 起 来 能 极 大 地 压缩 于 。 快 速 访问 y 
的 任意 位 置 可 以 通过 以 固定 的 采样 间隔 保存 Y 的 绝对 值 。 

更 为 有 趣 的 是 ，T 工 中 的 字符 不 用 访问 工 就 能 得 到 。 因 此 ， 工 实际 上 可 以 删除 ， 它 的 任 
何 子 串 都 可 以 只 通过 Ve) RDA. BREA ART RAM AL] F 
始 的 后 缀 的 第 一 个 字符 是 什么 ， 即 tr 。 而 我 们 已 经 能 够 知道 了 中 每 个 字符 所 对 应 的 区 间 
CILE 9-15 的 底部 ， 这 实际 上 对 应 6. 8. 6 节 的 表 C)， 并 能 确定 包含 i 的 区 间 。 例 如 , tar] 的 
第 一 个 字符 肯定 是 “i”， 因 为 7€ [4,9], [4, 9] 是 以 “i” 开 始 的 后 缀 的 区 间 。 为 了 知道 
A[ 可 所 指向 的 后 缀 的 第 二 个 字符 ， 即 tan ， 我 们 计算 = 亚 (i ， 并 使 用 上 面 的 方法 找 出 
tar] = taum 。 后 续 的 字符 可 以 通过 重复 计算 Vite 例如 ， 为 了 找到 字符 


thr… ， 我 们 已 经 得 到 tn = “1”. MH —W)= 18 。 因 为 18 在 字符 “s” 的 区 间 里 ， 
所 以 我 们 得 到 taqrir = tans] 一 “s”, am 我 们 计算 i’ = (18) = 15 >. È 
HEE “s” YP. AE, 后 级 tara" “iss” 开 始 。 注 意 ， 我 们 得 到 这 些 的 过 程 中 并 


没有 知道 AL7] 和 访问 TT 或 A。 

这 样 的 机 制 使 得 我 们 能 够 二 分 查找 A， 而 不 必 拥 有 A 或 者 工 。 当 -…- 个 后 绥 需 要 与 查询 
比较 时 ,我 们 使 用 上 面 所 描述 的 机 制 来 得 到 后 缀 的 后 续 字 符 。 因 此 ， 如 果 我 们 能 够 在 常数 时 
间 内 访问 VY, RAMA BASE OCmlogn) ， 和 未 压缩 形式 相同 。 最 后 ， 我 们 得 到 ， 
答案 在 区 间 A[sp ,ep] 中 ， 可 以 立即 知道 出 现 次 数 是 ep 一 sp 十 1。 

然而 ， 这 常常 是 不 够 的 ， 因 为 通常 希望 知道 模式 P 出 现 的 文本 位 置 ， 而 不 是 在 A 中 的 
区 间 。 我 们 仍然 不 需要 得 到 4A， 以 便 对 纪委 ;ii 委 ep ， 显 示 出 记录 的 位 置 A[i] 。 

为 了 能 够 在 个 中 定位 记录 ， 我 们 以 工 的 规律 间隔 对 A RH. 在 工 中 每 隔 * 个 字符 ， 记 
录 指 向 该 文本 位 置 的 后 缀 数组 位 置 。 即 ， 对 于 每 个 1 十 ;，s 形式 的 文本 位 置 ， 使 得 AL] = 
1 十 ;。s ， 然 后 我 们 将 GAL) 对 保存 在 按 第 一 个 分 量 可 搜索 的 词典 中 。 如 果 在 搜索 时 需要 
显示 后 缀 数组 元 素 4A[ 让 的 内 容 ， 而 (i, * ) 并 不 在 采样 的 子 集中 ， 那 么 我 们 尝试 i = VQ), 
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然后 是 六 =VVG)) 等 ， 直 到 找到 A 的 一 个 采样 过 的 单元 。 假 如 ， 在 《次 调用 Y 函数 以 
后 ， 我 们 找到 一 个 采样 过 的 单元 OA EODD. Ra, BAHAY) = Alilt k, 
所 以 原始 查询 的 答案 就 是 Ali] = A[Y(i)] 一 k 。 同 样 需要 注意 ， 因 为 我 们 采用 国定 的 间隔 
采样 工 ， 所 以 我 们 对 于 那些 es 的 情况 ， 肯 定 能 找到 一 个 采样 过 的 元 素 。 

最 后 ， 我 们 应 该 也 能 够 展示 任何 文本 子 串 ， 因 为 我 们 计划 舍弃 TT。 注 意 ， 我 们 已 经 知道 

369] ”对 于 给 定 i， 如 何 获 得 荆 中 从 文本 位 置 A[i] 开始 的 字符 。 为 了 显示 T[L,r] ， 我 们 再 次 采用 
采样 机 制 ， 查看 在 工 中 /! 之 前 的 最 近 一 次 采样 的 位 置 ， 并 显示 从 那里 开始 的 文本 。 为 此 ， 我 
们 对 采样 GAL) 按照 在 数组 中 的 文本 位 置 排序 ， 则 最 近 采 样 的 i 分 量 是 在 那个 数组 的 [ s] 
位 置 上 。 

因此 ， 最 终 的 压缩 后 缀 数组 就 可 以 通过 压缩 的 数组 于 〈 带 有 绝对 值 采样 以 快速 直接 访 
问 )、 表 C 和 采样 (i,A[i) 以 及 它 的 访问 结构 来 形成 。 整 个 结构 所 需要 的 空间 依赖 于 文本 的 
类 型 和 采样 的 密度 。 一 般 来 说 ， 使 用 工 所 需要 的 30% 一 70%% 的 存储 空间 就 能 得 到 可 观 的 性 
能 。 我 们 强调 ， 这 个 索引 不 仅 替 代 了 后 缀 数组 索引 A， 而 且 还 替代 了 文本 人 工本 身 。 所 以 这 
个 方案 比 原始 的 文本 占用 更 少 的 空间 ， 同 时 提供 了 访问 了 的 索引 方式 。 

2. 使 用 Burrows-Wheeler 变换 

另 一 个 完全 不 同 的 压缩 和 搜索 后 缀 数组 的 方法 是 通过 6.8.6 节 所 介绍 的 Burrows- 
Wheeler 变换 (Burrows-Wheeler transform, BWT). T WJ BWT T AURIE A 中 每 个 后 
缀 之 前 的 字符 ， 即 tac (如 果 A[ = 1 WA e 48a). AM, T= “missing Mississippi $ ” 
的 BWT 是 T™ = “ignpssmsm $ ipisssiii”。 已 经 证 实 ，BWT 倾向 于 把 相同 的 字符 合并 成 连 
续 的 一 段 区 间 ， 而 且 有 一 些 大 的 区 域 ， 其 中 不 同 字 符 很 少 。 事 实 上 ， 不 难 把 BWT 的 连续 区 
间 和 在 函数 v 中 出 现 的 情况 联系 起 来 。 在 6. 8.6 节 ， 我 们 已 经 讨论 过 BWT 的 可 压缩 性 质 。 
现在 我 们 只 关注 如 何 只 使 用 全 的 BWT 在 A 中 搜索 ( 即 我 们 同样 不 使 用 A AT). 

方案 就 是 对 6. 8.6 节 的 LF 映射 的 泛 化 。 我 们 使 用 同样 的 数组 C， 以 及 一 个 扩展 函数 
Ceec (lc,i)， 它 给 出 了 字符 c HT™ (1,1) 中 出 现 的 次 数 。 我 们 以 反 向 的 形式 搜索 P = 
Pipe Pn: 首先 在 A 中 找到 其 中 的 所 有 后 组 都 以 如 。 开始 的 区 间 ， 然 后 找到 以 pn_1pm 开始 
的 区 间 ， 然 后 pm: pm_1 pw 等， 直到 我 们 找到 了 已 的 答案 。 

第 一 步 是 简单 的 ，p, 的 记录 在 ALC[p,j 十 1..C[p 十 1] 。 然 后 ， 假 设 我 们 已 经 知道 了 
Pi Pma 在 A 中 的 区 间 A[sp;..ep;]， 那 么 ppi…p。 在 区 间 ALsp.. epim], HP 
spei =CUp-1)+ Ore(p-15sp;—-D +1, AR epii = Clp] + Occ(p; ebp) o 

例如 ， 为 了 搜索 “iss”， 我 们 从 (sp3,ep3) = (15,20) F, WA CL‘s’] = 14 和 
CL‘t?] 二 20 。 然 后 ,“ss” 的 区 间 (sp. ,epz) = (14+ Orc (‘s’,14)+1,14+Occ(‘s’,20)) = 
(14 十 3 十 1,14 十 6) = (18,20) (参看 图 9-15, AL18.. 20] 是 指向 荆 中 的 “ss” 记 录 的 区 域 )。 
最 后 ， 我 们 计算 出 (sp1,ep1) 二 (7,9) ， 即 得 到 最 终 的 答案 A[7..9] 。 

为 了 定位 记录 ， 我 们 使 用 了 一 个 与 V 隔 数 类 似 的 采样 机 制 。 不 同 的 是 ， 我 们 使 用 LF 
来 进行 反 向 遍历 ， 而 不 是 使 用 平 来 正 向 地 遍历 文本 。 注 意 ， 为 了 计算 LF， 我 们 需要 访问 
T” 的 任意 位 置 。 

这 个 方法 中 的 挑战 ， 就 是 在 T™”* 上 高 效 地 计算 Occ (c,i) ， 而 不 需要 使 用 很 多 空间 。 如 

果 TY” 没有 保存 ， 那 么 我 们 还 必须 能 够 对 于 任意 i 都 能 访问 T”“[i] 。 我 们 展示 如 何 使 用 一 
个 叫 小 波 树 (wavelet tree) 的 数据 结构 在 O(logo) 时 间 内 在 TY”Y 上 进行 这 两 个 操作 。 

字符 串 S 的 小 波 树 是 一 个 平衡 二 叉 树 ， 其 中 每 个 结 点 处 理 字 母 表 符 号 的 一 个 子 集 。 根 
结 点 处 理 整 个 字母 表 ， 而 叶子 结 点 处 理 单个 符号 。 每 个 结 点 处 理 的 符号 的 集合 被 分 成 两 个 子 
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集 ， 这 样 每 个 子 结 点 就 处 理 一 半 。 对 于 每 个 结 点 ， 我 们 给 它 指派 S 的 一 个 子 序列 ， 其 中 的 
符号 都 属于 该 子 集 。 这 个 子 序列 并 未 真正 地 保存 。 每 个 结 点 保存 一 个 位 图 ， 对 于 子 序列 中 的 
每 个 符号 ， 位 图 表明 了 该 符号 应 该 去 它 的 左 子 结 点 还 是 右 子 结 点 。 很 容易 看 出 ， 小 波 树 的 高 
度 是 [logo]. 

图 9-16 ÆR T S= T™ = “ignpssmsm$ ipisssiii” 的 小 波 树 。 假 如 我 们 希望 知道 在 位 置 
13 的 符号 。 因 为 根 结 点 位 图 中 的 位 置 13 上 是 1， 所 以 我 们 知道 这 个 字符 是 在 右 分 支 上 ， 所 
以 我 们 移 到 根 结 点 的 右 子 结 点 上 上。 而且， 因为 位 置 13 包含 的 是 第 8 个 1， 所 以 现在 我 们 所 
考虑 的 位 置 是 8， 而 不 是 根 结 点 上 的 13 了 。 根 结 点 的 右 子 结 点 的 第 8 位 还 是 1， 而且 是 第 5 
个 1， 所 以 我 们 再 次 向 右 走 ， 并 查看 位 置 5。 那 个 位 置 上 是 一 个 0， 而且 是 第 2 个 0。 所 以 我 
们 向 左 走 ， 并 考虑 位 置 2。 到 目前 ， 我 们 已 经 到 达 了 “p” 叶 子 ， 因 此 SL13] = “p”. 


ignpssmsm$, ipisssiii ` 
00111111100010111000 





$, g.i m,n,p,s 
ig$ Jiiiii npssmsmpsss 
110011111 01110101111 
$y g,i m,n PS 
$ igiiiii nmm pssspsss 
01 1011111 01110111 
$ g i m n p s 
$ a g iiiiii mm n Pp SSSSSS. 


FA 9-16 ”序列 “ignpssmsm$ipisssiii” 的 小 波 树 ， 只 有 位 图 是 真正 保存 的 


现在 让 我 们 看 看 如 何 使 用 小 波 树 在 T™“ 上 计算 Occ (csi) 。 假 设 我 们 希望 计算 Oci’, 
13) 。 我 们 知道 “i” 属 于 根 结 点 的 左 儿 子 ， 因 此 在 根 结 点 位 图 上 它 的 记录 就 标记 为 0。 到 位 
置 13， 总 共有 5 个 0 位 ， 所 以 我 们 移 到 左 子 结 点 ， 并 考虑 直到 位 置 5 的 情况 。 现 在 ， 我 们 知 
道 “i” 属 于 右 子 结 点 ， 它 在 这 个 位 图 中 标记 为 1。 到 位 置 5 有 3 个 1， 所 以 我 们 去 右 子 结 
点 ， 并 考虑 直到 位 置 INA. BK, RNA “P 属于 右 子 结 点 ， 所 以 我 们 计算 到 位 置 3 


置 2 为 止 总 共有 2 个 “ 记 。 所 以 最 后 的 答案 就 是 Crc(' ,13) = 2, 

注意 ， 在 位 图 上 我 们 只 需要 一 个 操作 : 计算 到 给 定位 置 i 为止 1 的 个 数 (或 者 是 0 的 个 
数 )。 这 个 操作 称 为 ank ， 而 且 它 能 高 效 地 完成 ， 并 使 用 很 少 的 空间 ， 我们 每 隔 ; 个 位 置 保 
fF mnk (i) 的 答案 ， 然 后 对 于 任何 rznk Ci) 查询 ， 从 i 之 前 最 近 采 样 的 位 置 开始 “暴力 ”计算 。 

未 进行 任何 压缩 ， 小 波 树 基本 上 需要 ”logc 的 空间 ， 也 就 是 说 ， 与 序列 S (或 了) 一 样 。 
通过 变 成 工 的 霍 夫 曼 树 的 形状 〈 而 不 是 平衡 树 ， 见 6. 8.4 节 ) ， 需 要 的 空间 就 变 成 与 THE 
阶 烤 〈 以 字符 计 ) 成 线性 关系 。 搜 索 的 复杂 度 〈 不 计算 记录 定位 ) 可 以 达到 Ol(mlogo) 。 

因此 ， 基 于 BWT 的 索引 的 简单 实现 基本 地 由 TY 的 小 波 树 、 数 组 C 和 使 用 e 时 类 似 的 
一 些 采样 对 (i,A[ 纠 ) 等 组 成 。 更 复杂 的 实现 见 本章 最 后 的 参考 文献 部 分 。 取 得 的 压缩 性 能 
与 基于 事 的 方法 类 似 ， 但 是 基于 BWT 的 方法 通常 在 DNA 等 小 字母 表 上 表现 得 更 好 ， 而 基 
FV 的 方法 在 英语 文本 等 较 大 的 字母 表 上 表现 得 更 好 。 


9.5 序列 搜索 
如 9. 2.2 节 所 示 ， 全 文 检索 的 倒 排 索引 在 某 些 情 况 下 会 采用 序列 搜索 : 扫描 词汇 表 ， 在 
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文件 或 块 寻 址 时 找到 短语 ， 在 块 寻 址 时 完成 任何 搜索 ， 在 文件 寻 址 时 在 界面 中 加 亮 显 示 记 录 
的 情况 等 。 本 节 将 对 不 同类 型 的 模式 介绍 序列 搜索 算法 。 

通常 ， 序 列 搜索 问题 是 : 给 定 一 段 文 本 T= 二 to…t 志 和 一 个 表示 字符 串 集 合 的 模式 P， 
找 出 已 中 字符 串 在 工 中 的 所 有 记录 。 而 且 在 上 未 建立 任何 结构 。 模 式 匹配 的 领域 十 分 广 
泛 ， 所 以 本 节 的 意图 只 是 展示 那些 最 实用 的 算法 ， 它 们 用 于 解决 信息 检索 场景 中 可 能 会 出 现 
的 最 常见 的 问题 。 我 们 在 本 章 的 最 后 给 出 了 进一步 阅读 的 一 些 参考 文献 。 

我 们 从 最 简单 的 情况 开始 : 模式 只 表示 单个 字符 串 P = pipir pu 。 这 叫做 严格 串 匹 配 
(exact string matching)。 通 过 一 些 很 小 的 变化 ， 这 个 问题 包含 7. 2. 1 节 介 绍 的 许多 基本 查 
询 ， 如 词 、 前 级 、 后 级 和 子 串 搜索 。 我 们 从 一 个 作为 基准 的 “暴力 ”方案 开始 ， 然 后 展示 
Horspool 算法 。 这 个 算法 实现 起 来 很 简单 ， 而 且 在 大 多 数 情况 下 是 最 快 的 。 我们 还 介绍 了 
一 个 变种 方案 ， 当 模式 更 长 或 者 词汇 表 更 短 时 ， 它 的 效果 很 好 〈 见 第 6 章 )。 

然后 ， 我 们 介绍 稍微 复杂 一 些 的 模式 ， 其 中 仍然 只 有 一 个 模式 框架 pi pod, » BER 
个 位 置 表 示 字 符 的 集合 。 这 表示 一 些 类 型 的 通配符 或 大 小 写 不 敏感 的 搜索 。 此 外 ， 我 们 让 某 
些 位 置 p; 是 可 选 的， 或 者 是 可 重复 的 。 所 有 那些 问题 都 在 一 个 简单 、 通 用 的 基于 非 确定 自 
动机 和 位 并 行 的 框架 中 解决 。 

有限) 自动 机 所 能 搜索 的 、 最 复杂 的 模式 是 正则 表达 式 。 下 面 ， 我 们 将 简短 地 介绍 基 
于 自动 机 的 、 搜 索 正则 表达 式 的 方法 。 

接 下 来 ， 我 们 讨论 多 模式 搜索 。 多 模式 搜索 可 能 会 因为 如 下 情况 而 出 现 ， 如 查询 扩展 或 
者 词 干 提取 过 程 ， 以 及 批量 处 理 很 多 查询 等 。 此 外 ， 当 在 一 个 块 寻 址 的 索引 Chl 9. 2. 2 节 )》 
或 者 使 用 基于 词 的 模型 压缩 的 文本 〈 见 6. 8 节 ) 上 搜索 复杂 模式 时 ， 多 模式 匹配 看 起 来 是 自 
然而 然 的 。 虽 然 一 般 情 况 下 只 会 搜索 少量 字符 串 ， 但 在 某 些 情况 下 ， 许 多 字符 串 是 同时 搜索 
的 。 我 们 介绍 扩展 Horspool 算法 和 基于 自动 机 的 算法 来 处 理 多 模式 搜索 。 

最 后 ， 我 们 考虑 近似 搜索 。 它 们 在 文本 中 找 出 足够 接近 搜索 模式 的 字符 串 所 在 的 记录 。 
近似 搜索 能 够 从 输入 、 拼 写 、 光 学 字符 识别 和 其 他 可 能 出 现在 文本 或 模式 中 的 错误 中 恢复 
过 来 。 

我 们 假设 字符 串 是 从 大 小 为 o 的 字母 表 之 中 抽取 的 字符 的 序列 〈 如 使 用 ASCI 码 ， 之 可 
以 是 [0，255])， 并 从 位 置 1 开始 。 在 平均 情况 分 析 中 ， 我 们 假设 文本 中 的 每 个 字符 都 是 均 
匀 、 独 立地 从 之 中 选择 的 。 在 9. 5.7 节 ， 我 们 将 看 到 本 节 所 开发 技术 的 进一步 应 用 。 


9.5.1 简单 字符 串 Horspool 


Horspool 算法 处 于 一 个 十 分 幸运 的 位 置 : 十 分 容易 理解 和 编程 ， 同 时 在 很 多 情况 下 又 
是 最 快 的 ， 特 别 是 当 搜 索 自 然 语 言 文本 时 。 

当 了 解 了 所 谓 的 暴力 〈brute forco 算法 后 ， 就 更 容易 理解 Horspool 算法 。 暴 力 算 法 
就 是 简单 地 试 遍 在 文本 中 所 有 可 能 的 模式 位 置 ， 并 一 个 接 一 个 进行 检查 。 更 明确 地 说 ， 这 个 
算法 在 文本 上 滑动 一 个 长 度 为 m 的 窗口 tte…tin ， 其 中 0 志和 nn 一 m。 每 个 窗口 表示 模 
式 的 一 个 潜在 记录 ， 必 须 验 证 它 是 否 与 P= pipro Pa 相等 ， 并 加 以 汇报 。 一 旦 验证 之 后 ， 
这 个 算法 就 滑动 窗口 到 下 一 个 位 置 。 

图 9-17a 展示 了 在 文本 T= “abracabracadabra” 上 搜索 P= “abracadabra”。 第 一 个 文 
本 窗口 是 “abracabraca”。 当 验证 它 并 不 匹配 P (在 模式 字符 “d” 之 后 失败 ) 之后， 这 个 窗 
口 平 移 一 个 位 置 。 现 在 的 文本 窗口 是 “bracabracad”， 这 里 验证 在 第 一 次 尝试 时 就 失败 了 ，; 
然后 我 们 再 次 平移 一 个 位 置 ， 以 此 类 推 。 暴 力 算 法 在 最 坏 的 情况 下 要 花费 OCmn) 时 间 ， 在 
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平均 或 最 好 的 情况 下 是 O(n) 。 





















































T ab) r)a)cyayb)r) a; Cray gabra T ab rjaycyaybyrjacpay aya, bray 
wv vv X VVV X 
P abracadabra P abracadabra 
X 
>abracadabra | abracadabra 
x 











‘ma bracadara 











lyabracad™@bra 


a) b) 











图 9-17 一段 简 单 的 文本 及 模式 : a) 使 用 “暴力 ”方法 和 b) Horspool 算法 搜索 


这 个 图 还 用 阴影 显示 了 与 第 一 个 滑动 窗口 中 最 后 一 个 字符 对 齐 的 那些 模式 字符 。 因 为 它 
们 在 前 两 次 平移 中 并 不 匹配 ， 所 以 那些 验证 必然 会 失败 〈 然 而 暴力 算法 在 不 同 的 模式 位 置 上 
发 现 了 不 匹配 ) 。 关 键 点 就 在 于 ， 我 们 可 以 通过 合理 地 预 处 理 这 个 模式 来 预测 开始 的 两 次 平 
移 是 无 用 的 。 

Horspool 算法 的 想法 是 ， 以 更 聪明 的 方式 平移 窗口 ， 以 此 来 跳 过 一 些 位置 ， 而 不 丢失 
模式 的 任何 记录 。 该 算法 预先 计算 一 个 用 字母 表 中 的 字符 索引 的 表 didie] 表示 ， 如 果 窗 口 
的 最 后 一 个 字符 是 <， 那么 窗口 可 以 平移 多 少 个 位 置 。 换 句 话说, dic] 是 从 模式 的 末尾 到 模 
式 中 最 后 出 现 HME Rp, 之 外 〉 的 距离 。 

图 9-17b 用 Horspool 算法 重复 了 这 个 例子 。 在 验证 了 窗口 并 不 匹配 PE, RRR A 
口 的 最 后 一 个 字符 “a”。 因 为 dL“a”] = 二 3， 所 以 这 个 窗口 就 有 把 握 平 移 3 个 位 置 ， 这 样 P 
中 的 第 4 个 “a” 就 与 窗口 最 后 的 “a” 对 齐 了 。 

如 图 9-18 的 伪 代 码 所 示 ，Horspool 算法 极其 容易 编写 。Horspool 算法 在 最 坏 的 情况 和 
暴力 算法 一 样 ， 但 在 最 好 的 情况 下 只 需要 OC(n/m) 时 间 。 如 果 字 和 母 表 与 m 相 比 足够 大 ， 这 
也 是 在 平均 情况 下 的 复杂 度 。 大 多 数 
自然 语言 搜索 满足 这 种 情况 ， 因 此 


Horspool (T = iite...tn, P= pip2.--Pm) 


: i for cE do did] — 
Horspoo! 算法 通常 是 最 好 的 选择 。 for j<1...m=1 do dp] —m—5 
Sunday 对 Horspool 算法 做 了 一 E inc tn agi 
个 小 的 改进 ， 他 使 用 在 文本 中 的 下 一 Fes a ees 
wale mA titi;= Dj o = 
个 字符 来 做 下 一 次 平移 《〈 即 p), A 证 Siem tan sa a at text position 7+ 1 


为 我 们 在 当前 位 置 已 经 舍弃 或 者 找到 j PFARA 
了 一 个 记录 。 这 对 于 小 模式 提高 了 跳 
REKE, 但 是 并 未 减少 搜索 时 间 ， 图 9-18 Horspool 字符 串 匹配 算法 的 伪 代 码 
因为 在 最 好 情况 下 ， 我 们 需要 查看 两 个 字符 而 不 是 一 个 

还 有 许多 其 他 字符 串 匹 配 算法 ， 这 里 并 未 涉及 ， 因 为 它们 在 实际 中 慢 得 多 。 这 些 算法 包 
括 第 一 个 线性 算法 (Knuth、Morris 和 Pratt[9121)， 以 及 第 一 个 提出 Horspool 算法 中 所 使 
用 的 启发 式 方法 的 Boyer-Moore 算法 [246]。 这 些 算法 在 实际 文本 中 的 比较 见 图 9-38。 

小 字母 表 和 长 模式 

当 在 小 字母 表 上 搜索 长 模式 时 ， Horspool HRI AMIE AK. 因为 它 的 平均 搜索 时 间 
相 比 OCn/m) ， 更 接近 OCn/o) 。 例 如 ， 想 象 一 下 ， 一 个 计算 生物 学 的 应 用 ， 需 要 搜索 在 字 
母 表 (A, C, G, T) 基础 上 的 包含 300 个 核 苷 酸 的 字符 串 : 此 时 平均 平移 长 度 只 有 4. 
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通过 在 平移 窗口 时 考虑 连续 的 字符 对 ， 小 字母 表 的 问题 可 以 得 到 缓解 。 正 如 我 们 将 模式 
与 最 后 的 窗口 字符 姑 对 齐 一 样 ， 可 以 将 它 和 最 后 一 对 窗口 字符 tur itin 对 齐 。 在 先前 的 例 
子 中 ， 每 个 窗口 检验 两 个 字符 ， 平均 平移 VHK16 个 位 置 通过 考虑 3 个 字符 ， 每 个 窗口 会 
检验 3 个 字符 ， 平 均 平移 人 = 二 64 个 位 置 。 

通常 ， 我 们 能 够 预 处 理 P， 使 得 能 够 用 窗口 最 后 的 a 个 字符 来 平移 。 每 个 窗口 至 少 需 要 
访问 q 个 字符 ， 然 后 平均 平移 o 个 位 置 。g 的 最 佳 值 是 什么 ”从 先前 的 数字 来 看 ， 似 乎 g 越 
大 越 方便 。 然 而 ， 我 们 不 可 能 平移 多 于 和 位 ， 所 以 史 委 是 一 个 天 然 的 限制 。 如 果 我 们 设 
Eq = logm ， 而 且 我 们 足够 幸运 ， 在 读 了 9g 个 字符 后 忽略 了 整个 和 窗口， 那么 平均 的 搜索 时 
间 就 是 OCnlog,(m)/m) 。 

实际 上 ， 这 个 平均 的 复杂 度 是 最 优 的 ， 我 们 选择 的 q 也 是 接近 正确 的 。 可 以 分 析 说 明 ， 
通过 选择 g = 2logsm ， 平 均 的 搜索 时 间 可 以 达到 最 优 的 O(Calog。(m)/m) 。 

agrep 软件 工具 使 用 了 这 个 技术 。 选 择 一 个 散 列 函数 ， 把 o-gram (KEW g 的 字符 串 ) 
映射 到 一 个 整数 范围 。 然 后 将 从 P 的 每 个 gq-gram 到 PHA BHR iCKRE—-TMAWHRP 
(冲突 的 解决 方案 是 让 更 小 的 距离 覆盖 较 大 的 )。 对 于 不 在 P 中 的 g-gram， 使 用 距离 m 一 g 一 
1。 现 在 Horspool 算法 几乎 是 逐 字 地 运行 的 。 

一 个 小 的 插曲 是 ， 因 为 最 后 一 个 g-gram 很 有 可 能 与 模式 不 匹配 ， 所 以 我 们 尝试 在 验证 
窗口 前 就 平移 。 为 此 ， 我 们 将 P 的 最 后 一 个 gq-gram 加 入 到 a 的 定义 中 ， 这 样 当 窗口 的 最 后 
一 个 9-gram 与 模式 匹配 时 ， 就 表示 不 需要 平移 。 图 9-19 展示 了 它 的 伪 代 码 。 


Agrep (T = tita... tns P=pip2.--Pm> % h( )» N) 


for i€[1,N] do d{i]—m— q¢+1 
for 了 人 一 0. .im 一 9 do d[h(pjiipjs2...Pj4q)] e m--g- j 
iO 
while i<n—m do { 
s — d[h(ti4m—qiitit¢m—qt2---ti+m)] 


if s>0 then ici+s 
else { 
jel 
while j<m A ty; =p; do 了 一 7+1 
if 7 >m then report an occurrence at text position 7+ 1 
iei+l 


} } 











图 9-19 在 短 字母 表 上 匹配 长 模式 的 agrep 算法 的 伪 代 码 〈 简 化 版 ) BA h: D) > [1,N] 散 列 
gq-gram， 它 假设 mq 


9.5.2 复杂 模式 : 自动 机 和 位 并 行 


Horspool 算法 对 于 搜索 简单 模式 来 说 工作 得 相当 好 。 然 而 ， 在 某 些 情况 ， 模 式 会 更 复 
杂 ， 如 字符 类 、 可 选 字符 、 通 配 符 等 。Horspool 算法 和 大 多 数 传统 的 算法 都 无 法 很 好 地 应 
用 到 复杂 模式 中 。 在 本 节 ， 我 们 将 介绍 自动 机 Cautomata) 和 位 并 行 (bit-parallelism)〉 两 
种 算法 如 何 能 够 以 一 种 简单 、 优 雅 和 高 效 的 方式 处 理 许 多 这 样 的 复杂 模式 。 

1. 自动 机 

图 9-20 的 顶部 显示 了 一 个 搜索 模式 P= “abracadabra” H 4 WAR A HH (Non 
deterministic Finite Automation, NFA), NFA 是 一 个 有 向 图 其中,， 结 点 叫做 状态 


(Cstate) ， 箭 头 叫 做 转移 (transition)， 并 用 单个 字符 (s—>s’) BY AS =F FF Gs’, 叫做 e 转 
移 ) 标记 。 有 时 为 了 简便 ， 我 们 将 从 状态 s 到 状态 的 多 个 箭头 折 礁 成 多 标签 的 单个 箭头 。 
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在 图 中 无 任何 状态 指向 它 的 一 个 状态 叫做 开始 状态 ， 图 中 用 双重 圆圈 标记 的 一 个 或 多 个 状态 
叫做 终结 状态 。NFA 根据 如 下 的 过 程 接 受 或 者 拒绝 字符 串 ， 其 中 给 定 字符 串 作 为 输入 : 
1) NFA 启动 时 ， 只 有 开始 状态 是 活跃 的 。 


2) 如 果 一 个 状态 s 是 活路 的 ， 并 且 有 一 个 转移 sos’, WARS "也 立刻 被 激活 。 更 多 
的 状态 可 以 通过 e 转移 从 s' 激 活 ， 直 到 没有 更 多 的 状态 被 激活 。 

D 如 果 输 入 字符 串 耗 尽 了 ， 那 么 这 个 过 程 就 停止 了 。 这 时 ， 当 且 仅 当 某 个 终结 状态 被 
激活 ， 就 称 该 NFA 接受 了 这 个 字符 串 。 

4) 读 取 下 一 个 输入 字符 c 

5) 新 的 活跃 状态 是 这 样 一 些 :当前 存在 活路 状态 s MEAE NFA 中 存在 一 个 转 
Bess’. 

6) 返回 第 2 步 。 





B[a =0 0 
BIb]=1 1 
BI=1 0 
BIc]=1 0 
BId]=1 0 

0 


0 
0 
0 
0 
1 
B[*]=1 0 


oo oO 9c oO}; 
oo 8 S=- o 
oo >S- o oo 
oo © O O = 


图 9-20 ”搜索 “abracadabra” 的 非 确 定性 自动 机 和 相应 的 表 B。 开 始 的 自 环 匹配 任何 字符 。 表 
中 的 每 列 对 应 于 自动 机 的 一 条 边 


字符 串 被 NFA 接受 的 一 个 非 操 作 性 描述 是 : 如 果 从 开始 状态 到 终结 状态 之 间 存 在 一 条 
路 径 ， 并 且 连 接 所 有 转移 上 的 标签 字符 串 后 就 是 S， 那 么 就 说 字符 串 S 被 一 个 NFA 接受 。 

可 以 看 出 ， 在 图 9-20 中 的 NFA 接受 任何 以 P 二 “abracadabra” 结 束 的 字符 串 。 开 始 状 
态 总 是 活 牙 的 ， 因 为 那个 自 环 可 以 接受 任何 字符 。 如 果 我 们 输入 文本 工 给 这 个 NFA， 那 么 
它 将 会 在 P 在 了 中 的 每 个 出 现 记录 之 后 到 达 终 结 状态 。 注 意 ， 多 个 状态 可 以 同时 是 活跃 的 。 
例如 ， 在 读 取 “abra” 后 ，NFA 状态 0、1 和 4 都 是 活路 的 。 

一 个 及 个 状态 的 NFA， 对 于 每 个 输入 字符 需要 On) NAT. BBA, FET PR 
到 了 的 出 现 记录 需要 OCmm) 的 时 间 。 或 者 ， 它 可 以 转换 成 一 个 确定 有 限 自动 机 (Deter- 
ministic Finite Automation，DFA) ， 它 的 转移 用 不 同 的 单个 字符 来 标记 。DFA 每 次 总 是 最 
多 只 有 一 个 状态 是 活路 的。 把 NFA 转换 成 DFA 有 标准 技术 ， 能 在 O 时 间 内 高 效 地 完 
成 复杂 模式 的 匹配 (因为 只 需要 追踪 单个 活跃 的 状态 )。 然 而 ， 对 于 很 多 复杂 模式 来 说 ， 
这 个 构建 过 程 虽 然 很 强大 ， 但 不 一 定 是 必要 的 。 在 本 节 中 ， 我 们 将 说 明 ， 如 何 通过 使 用 
位 并 行 技术 高 效 地 运行 多 个 NFA。 至 于 更 复杂 的 模式 ， 采 用 DFA 则 是 必要 的 ， 我 们 将 在 
9.5.4 节 进 行 讨论 。 

2. 位 并 行 和 Shift-And 算法 

位 并 行 利用 机 器 字 如今，w 二 32 位 、64 位 或 128 位 ) 内 位 操作 固有 的 并 行 性 。 通 过 
适当 地 使 用 这 个 性 质 ， 算 法 所 执行 的 操作 个 数 可 以 最 多 减少 w 信 ， 在 实际 中 这 是 十 分 显著 
的 。 随 后 ， 我 们 将 谈 到 位 掩 码 (bit mask)， 它 是 保存 在 计算 机 寄存 器 中 的 位 序列 。 位 掩 码 
从 右 向 左 读 取 ， 所 以 5。…b 的 第 一 位 是 bh 。 位 掩 码 的 操作 符 包 括 :“|” 表 示 按 位 或 ，“&” 
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表示 按 位 与 ，“ ”表示 按 位 异 或 。 一 元 操作 符 “ 一 ”对 所 有 位 取 反 。 此 外 ， “mask<i” 表示 
将 掩 码 中 所 有 的 位 左 移 i 位 ， 并 在 右边 补 0; “mask>i” 是 类 似 的 。 最 后 ， 可 以 像 数字 一 样 
操作 位 掩 码 ， 如 对 它们 进行 加 、 减 操作 。 

最 简单 的 位 并 行 算法 叫做 Shift-And 算法 ， 它 能 够 匹配 单个 字符 串 。 这 个 算法 建立 一 个 
表 B， 其 中 对 每 个 字符 保存 一 个 位 掩 码 babi MHAM pi=c ht, 对 B[cj] 第 i 位 的 值 置 为 
1 (ULI 9-20) 。 搜 索 的 状态 保存 在 一 个 机 器 字 D=d,,--d, 中 ， 其 中 当 图 9-20 中 的 状态 i 活 
跃 时 ，d; 设置 为 1。 因 此， 当 4 二 1 时 ， 表 示 找 到 了 一 个 匹配 。 注 意 ， 状 态 0 并 未 在 D 中 ， 
因为 它 总 是 活跃 的 。 

D 一 开始 设置 为 全 0， 对 于 每 个 新 的 文本 字符 :: ， 算 法 在 读 取 i 后 更 新 DD 来 反映 最 新 的 
活跃 状态 集合 。 图 9-21 给 了 这 个 算法 的 伪 代 码 。 比 较 有 趣 的 是 行 (5) ， 这 行 模拟 了 NFA 的 
过 程 。 不 难 把 这 个 式 子 和 NFA 中 的 激活 过 程 联系 起 来 。 首 先 ， 每 个 活跃 状态 尝试 激活 下 一 
个 状态 (“DK1”)， 而 未 显示 的 初始 状态 
尝试 激活 状态 1 (“11”)。 然 而 ， 只 有 由 字 
符 去 标记 的 转移 才能 真正 地 激活 目标 状 
态 ， 因 此 先前 的 操作 的 结果 就 是 和 BEz] 
求 “与 ”。 

很 容易 看 出 ，Shift-And 算法 花费 
OM 时 间 ， 在 实际 应 用 中 ， 考 虑 到 要 检验 
所 有 的 文本 字符 ， 这 个 算法 还 是 十 分 快 图 9-21 Shift-And 算法 的 伪 代 码 
的 。 然 而 ， 这 个 伪 代 码 要 求 m<w, hR 
是 说 ， 机 器 字 必 须 有 足够 的 位 数 来 保证 每 个 模式 位 置 保存 一 位 。 对 于 长 模式 ， 最 实用 的 方法 
就 是 搜索 pipe pw RABBMUKAMRAHICRBLBT 已 。 平 均 来 说 ， 这 仍然 是 O(n) 
时 间 。 通 过 使 用 多 个 机 器 字 来 模拟 NFA， 在 最 坏 的 情况 下 也 能 保证 OC(mm/w) 的 时 间 复 
RE. 

3. 扩展 Shift-And 算法 

对 于 简单 字符 串 ，Shift-And 算法 无 法 与 Horspool 算法 匹敌 〈 除 了 在 字符 串 十 分 短 的 情 
况 下 ，Horspool 算法 无 法 得 到 长 的 平移 ) Shift-And 算法 的 优势 在 于 ， 它 能 够 (或 者 在 扩 
ER) 处理 复 杂 得 多 的 模式 。 最 简单 的 例子 是 字符 类 (class of character); P 中 的 一 些 位 置 
表示 某 个 字符 集合 ， 而 不 是 单个 字符 。 例 如 ， 当 希望 以 大 小 写 不 敏感 的 方式 搜索 ， 或 者 希望 
查找 整个 单词 (例如 ， 当 查找 单词 “oit” 时 避免 找到 “spoil”)。 在 后 一 情况 下 ， 我 们 可 以 用 
两 个 不 包含 字母 的 字符 类 来 包围 需要 查询 的 词 。 当 在 最 后 位 置 附近 搜索 某 个 包含 很 大 类 的 模 
式 时 ，Horspool 算法 的 性 能 会 极 大 地 降低 。 相 反 ，Shift-And 算法 对 这 些 困难 完全 不 敏感 。 
它 只 需要 对 每 个 属于 p; 类 的 字符 c， 将 B[c] 的 第 ; 位 设置 为 1， 而 它 的 搜索 算法 和 性 能 并 未 
改变 。 

现在 让 我 们 考虑 一 个 更 加 复杂 的 模式 。 假 如 我 们 搜索 “mneighbour”， 但 是 希望 “u” 是 
可 选 的 ， 这 样 就 可 以 同时 找到 这 个 词 的 英 式 写法 和 美式 写法 。 图 9-22 展示 了 一 个 用 * 转移 
实现 这 个 功能 的 NFA: 一 旦 状态 7 被 激活 ， 不 管 是 否 读 取 “u”， 状 态 8 都 能 到 达 。 








Shift-And (T = t,te...tn, P = pipa.. Pm) 


for cE E do Bjiqd-0 
for j<— 1...m do B[p;] — Bip] | (1 << (j -1)) 
D-0 
for ic1...n do 
D—((D<<1){ 1) & Bei] 
if D& (1 << (m—-1)) #0 
then report an occurrence at text position i — m + 1 








Æ 9-22 ”搜索 “neighbour”， 且 “u” 可 选 的 非 确定 自动 机 
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在 复杂 的 模式 中 ， 自 然 语 言 搜索 常常 有 用 的 另 一 个 功能 是 通配符 〈wild card), MAB 
通用 的 可 重复 字符 (或 类 )。 这 些 模 式 位置 可 以 在 文本 中 连续 出 现 一 次 或 者 多 次 。 例 如 ， 我 
们 可 能 希望 通过 查找 “transferred$ … to account # 1234S6” 来 得 到 银行 中 所 有 的 转账 记录 ， 
其 中 的 “…?” 表 示 任 何 数字 序列 。 又 如 另 一 个 例子 ,我们 查找 “well known”， 但 是 这 两 个 
词 之 间 可 能 有 连 字 符 ， 一 个 或 多 个 空格 ， 或 者 是 换行 ， 如 “wel known”, “well 
“well-known”、“well--known”、 “well - known” 和 “well \n known” £., K 9-23 展示 了 解决 
最 后 这 个 例子 的 NFA。 


known” , 


sep 


oe DADO OAS O Oma O ONA C) 
9-23 WR “well known”， 并 且 分 割 符 可 以 是 连 字 符 、 空 格 或 者 换行 的 任何 序列 的 非 确 定 自 
SPL. FS “sep” RERE {一 ，“”,，\n} 
字符 的 可 选 性 、 可 重复 性 和 类 别 可 以 结合 起 来 ， 这 样 就 有 一 个 可 选 且 可 重复 的 类 。 
图 9-24 展 示 了 一 个 处 理 所 有 这 些 情况 的 扩展 Shift-And 算法 的 伪 代码 。 解 释 代码 所 有 的 细节 
并 不 在 本 章 的 范围 之 内 ， 因 为 这 只 是 所 
有 可 以 处 理 的 模式 类 型 的 一 个 例子 。 然 
而 ， 乔 清 这 段 伪 代 码 如 何 工作 ， 并 以 此 
推广 到 其 他 情况 ， 对 读者 来 说 是 一 个 很 
有 趣 的 练习 。9. 8 节 引 用 了 一 些 更 深入 
的 研究 。 











Shift-And-Extended (T = tit2..-tn, m, BÍ], A, S) 


Ie-(A>>1)&(A7(A>>1)) 
FHA&(A*(A>>1)) 
D-0 

for i— i...n do 


{ 
De (((D << 1) |1) | (D & S)) & Bit] 
Df—D|F 
D D | (A & ((~ (Df - 1)) ^ Df)) 


if D & (1 << (m—1)) #0 
then report an occurrence at text position i— m + 1 


9.5.3 更 快 的 位 并 行 算法 
在 Horspool 等 用 于 简单 字符 串 匹 





图 9-24 一 个 处 理 字符 类 、 可 选 、 可 重复 字符 的 扩展 


配 的 快速 算法 和 Shift-And 等 用 于 复杂 
模式 匹配 的 较 慢 的 算法 之 间 ， 我 们 似乎 
必须 做 出 选择 。 然 而 ， 有 一 些 位 并 行 算 


Shift-And 算法 的 伪 代 码 。 出 于 简化 目的 ， 已 
经 预先 对 字符 和 字符 类 计算 好 了 表 B (忽略 可 
选 或 可 重复 的 )。 位 掩 码 A 和 5S 分 别 表示 可 选 


和 可 重复 的 位 置 。 同 样 出 于 简化 目的 ， RIE 
设 模式 中 的 第 一 个 和 最 后 一 个 位 置 并 不 是 可 选 
的 〈 和 否则 可 以 简单 地 移 除 它们 ) 


法 ， 既 可 以 处 理 复 杂 模 式 ， 又 能 够 跳 过 
文本 字符 。 然 而 ， 随 着 模式 变 得 越 来 越 
复杂 ， 那 些 算法 会 渐渐 变 慢 。 

1. 后缀 自动 机 

模式 P 的 后 组 自动 机 (suffix automaton) 是 一 个 识别 P 所 有 后 缀 的 自动 机 。 这 个 自动 
机 的 非 确 定 版 本 有 一 个 十 分 规则 的 结构 ， 如 图 9-25 所 示 。 

BDM 算法 基于 后 缀 自动 机 实现 。 我 们 将 展示 一 个 简化 的 变种 〈 它 在 自然 语言 文本 上 更 
快 )。 为 了 搜索 模式 P， 需 要 建立 P"” (RERA) 的 后 缀 自动 机 。 这 个 算法 反 向 《从 右 往 
A) 扫描 文本 窗口 ， 并 把 字符 提供 给 P™ 的 后 缀 自动 机 。 如 果 在 扫描 了 timtitmn-1"…titj 后 ， 
自动 机 耗 尽 了 活路 状态， 那么 表示 tits jt tim FRR PASTS. Alt, RAE P 
的 实例 能 够 包含 这 个 文本 子 串 ， 这 个 窗口 可 以 很 安全 地 移 过 二 。 相 反 ， 如 果 到 达 了 窗口 的 
开始 ， 自 动机 仍然 有 活 唉 的 状态 ， 那 么 表示 这 个 窗口 与 模式 匹配 〈 见 图 9-25)， 所 以 我 们 输 
出 这 个 记录 ， 并 移动 这 个 窗口 一 个 位 置 。 
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图 9-25 XF P= “abracadabra” 的 非 确 定 后 缀 自动 机 


这 个 算法 在 最 坏 情 况 下 的 时 间 复 杂 度 是 Onn), EEE O(nlog,(m)/m)， 也 是 最 优 

的 。 因 为 需要 实现 确定 性 的 后 缀 自动 机 ， 所 以 这 使 得 BDM 比 我 们 先前 看 过 的 一 些 算 法 要 更 
380] 复杂。 一 个 比较 吸引 人 的 变种 叫做 BNDM， 它 采用 位 并 行 实现 了 后 缀 自动 机 ， 并 且 当 模式 

并 不 十 分 长 时 〈 最 多 是 机 器 字 长 的 两 倍 ) 能 取得 更 好 的 性 能 。 

BNDM 的 伪 代 码 如 图 9-26 所 示 。 [BNDM (T= ht.. ta, P = pipz.. Pm) 
F (8) 将 所 有 的 。 转 移 从 状态 1 传播 | mr ce do Bidoo 
到 每 一 个 其 他 状态 ， 并 将 窗口 的 最 后 | @) for j—1...m do Bip] ~ Blpj]| (1 << (m—J)) 
一 个 字符 输入 NFA。 然 后 ， 扫 描 窗 |G) Vie i<n—m dof 
口 ， 直 到 完全 遍历 它 ， 或 者 自动 机 耗 te Te Biles 


尽 了 所 有 的 活 暑 状态 。 对 于 第 一 种 情 | (7 while 7>0 A D#0 do 


况 ， 在 行 (10) 输出 该 记录 ; 对 于 这 | (9) j=j-1 
两 种 情况 ， 窗 口 都 会 平移 过 扫描 结束 | oy 





if D#0 then report an occurrence at text position i + 1 








的 位 置 ， 如 行 (11) 所 示 。 (1) imitj+l 
BNDM 算法 可 以 很 容易 地 应 用 于 } 
复杂 模式 。 给 定 任 何如 图 9-22 或 图 9-26 BNDM 算法 的 伪 代码 
图 9-23 所 示 的 NFA， 我 们 几乎 可 以 自动 地 获得 相应 的 类 BNDM 搜索 算法 。9. 8 节 给 出 了 一 
些 包含 更 多 细节 的 文献 。 


2. 交错 Shift-And 算法 

另 一 个 获得 最 优 平 均 搜 索 时 间 的 想法 是 从 g 个 文本 字符 中 读 取 一 个 。 详 细 来 说 ， 假 设 
P= “neighborhood” fl g 二 3， 如 果 我 们 从 3 个 文本 位 置 中 读 取 一 个 ， 而 且 P 出 现在 某 个 文 
AAA tiiti litm BA, 根据 i 模 3 的 值 ， 我 们 将 在 和 窗口 中 读 到 “ngoo”、“ehro” 和 
“ibhd”。 因 此 ， 可 以 并 发 搜索 P 的 这 三 个 子 序列 ， 这 样 保证 PP 的 每 个 记录 都 能 检测 出 。 

这 个 并 发 搜索 可 以 通过 运行 | m/q | 个 交错 (interlaced) 搜索 来 实现 ， 这 些 交 错 搜索 使 用 
与 Shift-And 算法 一 样 的 位 并 行 方法 。 现 在 ， 开 始 状态 可 以 激活 P 的 前 g 个 位 置 ， 并 且 位 并 
行 的 移 位 是 每 次 g 个 位 置 。 图 9-27 显示 了 这 个 自动 机 ， 图 9-28 是 它 的 伪 代 码 。 注 意 ， 找 到 
这 三 个 子 序列 中 的 一 个 并 不 能 保证 我 们 已 经 找到 了 已 ， 所 以 需要 在 行 (8) 进行 一 次 Shift- 

And 验证 。 





图 9-27 用 于 P= “neighborhood”, q=3 的 交错 搜索 的 非 确定 后 级 自动 机 


FEAH, WRS g=/(2logm )， 那 么 这 个 算法 的 平均 搜索 时 间 是 最 优 的 ， 为 
O(nlog,(m)/m) CREE mw). Am., ARWR 9-22 和 图 9-23 中 更 复杂 的 模式 是 否 能 用 
这 个 技术 处 理 。 
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9. 5.4 正则 表达 式 


上 面 讨 论 的 更 复杂 的 模式 是 正则 表达 式 的 特例 。 一 般 的 正则 表达 式 〈 见 7.1.2 节 ) 不 能 
如 图 9-22 和 图 9-23 中 那样 方便 地 顺序 排列 ， 而 是 需要 一 个 更 复杂 的 应 对 方法 。 

处 理 正则 表达 式 的 第 一 部 分 就 是 建立 它 
的 NFA。 有 不 同 的 NFA 构建 方法 ， 我 们 选 
择 更 为 传统 的 Thompson 技术 加 以 说 明 ， 因 
为 它 比 较 容易 解释 。 图 9-29 描述 了 这 个 递 
归 的 构建 方法 。 

一 旦 NFA 建立 完毕 ,我 们 在 开始 状态 
加 一 个 自 环 (接受 任何 字符 )， 然 后 这 个 自 
动机 就 可 用 于 搜索 了 。 如 果 正 则 表达 式 有 m 
个 符号 ， 那 么 Thompson 构建 方法 就 会 生成 图 9-28 采样 间距 为 4 的 交错 Shift-And 算法 
一 个 大 小 为 O(Cm) 的 自动 机 。 搜 索 可 以 在 的 伪 代 码 〈 简 化 版 ) 。 假 设 meg 
OCmn) 时 间 内 完成 。 


可 以 将 NFA 确定 化 ， 转 换 成 DFA, je e o ， 
基本 方法 就 是 把 NFA 状态 的 每 个 了 集 当 mrOmo=- 一 OO 


做 一 个 DFA 状态 ， 并 且 满足 下 面 的 性 质 : 
在 接受 一 个 字符 串 后 ，DFA MERRER MEO = Q mer ¢ 








Interlaced-Shift-And (T = fitg...tn, P =pipe...Pm: q) 


(1) for ced do Ba 一 0 
(2) for j-—1...m do Bfp;} — Blip} | (<< G -1)) 


(5) for i-1...[n/q] do { 

(6) D+((D<<4q)| 8) & Bita] 

(7) if D& (S << (|m/q]-q—4)) #0 

(8) then run Shift-And over tai_m+1...toitg-! 


} 








# NFA 的 状态 集合 {S15 -ea Sr} 4AM 
当 NFA 转移 到 (s, e s 中 的 一 个 
状态 。 382 


定义 e-closure (s) BM s FF. xt 0 Th(EIE") = 

个 或 多 个 。 转移 可 达 的 NFA 状态 集合 。 

DFA 开始 的 状态 是 e-closure (1), 其 中 I 是 

NFA 的 开始 状态 。 然 后 ， 令 5 是 一 个 已 经 

ERK DFA RA. MS 通过 字符 c 可 达 的 
RESE: 

S’= U e-closure(s’) (9-1) 


我 们 先 产 生 T， 然 后 必须 生成 所 有 有 从 TO ee een nee ee nea Menge 
开始 、 通 过 每 个 可 能 的 字符 c 可 达 的 状态 。 

每 一 个 新 的 状态 都 必须 轮流 处 理 ， 以 此 来 生成 从 它们 开始 、 通 过 任 一 字符 可 达 的 状态 。 这 个 
过 程 一 直 持续 到 所 有 新 生成 的 状态 都 处 理 完毕 ， 然 后 DFA 就 构建 完毕。DFA 的 终结 状态 是 
那些 包含 某 些 NFA 终结 状态 的 集合 。 

在 最 坏 的 情况 下 ，DFA 可 能 包含 多 达 27 个 状态 ,但 是 ， 在 许多 实际 的 情况 中 ， 它 要 
小 得 多 。 有 些 系统 化 的 步 又 来 最 小 化 DFA 的 状态 数目 ， 而 不 影响 它 接受 的 字符 申 集合 。 

一 旦 得 到 了 这 个 DFA， 那 么 对 于 原来 的 正则 表达 式 ， 可 以 在 O(n) 时 间 内 扫描 整个 广 
Æ: 我 们 从 DEA 的 开始 状态 开始 ， 依 次 读 人 每 个 文本 字符 ， 移 到 新 的 状态 。 每 当 到 达 了 终 
结 状态 ， 就 输出 这 个 记录 。 每 个 转移 可 以 在 常数 时 间 内 完成 ， 只 要 预先 计算 一 个 状态 转移 [353] 
表 ， 它 对 于 每 个 DFA 状态 和 字符 ， 给 出 新 的 DFA 状态 。 


Th(E*) = 
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图 9-30 展示 了 将 Thompson 构建 方法 应 用 到 正则 表达 式 时 生成 的 NFA， 以 及 将 上 述 过 
程 应 用 到 NFA 所 生成 的 DFA 和 最 小 化 的 DFA, 














0,1,2.3,4,6,7,8,10,11.12 


b) c) 





图 9-30 a) Thompson 方法 的 NFA; b) 对 应 的 DFA; o 最 小 化 DFA, 
其 中 的 正则 表达 式 为 “a (aba| ab) xa” 


最 近 ， 研 究 人 员 提 出 了 使 用 位 并 行 方 法 来 避免 构建 确定 自动 机 。 与 经 典 方法 相 比 较 的 结 
果 各 有 优 劣 ， 每 一 个 都 有 上 比 男 一 个 好 的 情况 。 我 们 上 面 已 经 展示 的 经 典 方法 对 出 现在 信息 检 
索 应 用 中 的 正则 表达 式 更 加 有 效 ， 而 对 于 出 现在 计算 生物 学 场景 中 的 更 大 的 正则 表达 式 ， 可 
能 使 用 位 并 行 方法 会 更 好 。 


95.5 多 重 模式 


单个 字符 串 匹 配 算法 〈 参 见 9. 5.1 节 ) 可 以 扩展 成 处 理 多 字符 申 P= (Pi, Pro 0, 
P.) 。 例 如 ， 当 只 搜索 少量 模式 时 ， 我 们 可 以 扩展 Horspool 算法 ， 使 得 dle] 表示 单个 模式 
P: dic] 值 中 的 最 小 值 ， 如 图 9-17 所 示 ， 用 聚合 的 a 函数 进行 搜索 。 为 了 计算 每 个 di, 
我 们 必须 以 刀 中 最 短 模式 的 长 度 m 截断 P;， 并 且 必 须 改 变 图 9-18 的 行 〈6) ， 我 们 不 再 比较 
254 和 加， 而 是 将 后 续 的 符号 t+; 加 入 到 在 PP 中 所 有 模式 上 建立 的 trie 树 中 (这 个 trie 树 中 的 
模式 并 未 被 截断 ， 因 此 验证 过 程 可 能 会 读 取 当前 窗口 之 外 的 文本 符号 )。 

当 查 找 更 多 的 模式 时 ， 上 面 的 方案 就 必须 扩展 成 根据 它 最 后 的 g-gram 平移 窗口 。 这 恰 
恰 就 是 agrep 工具 对 于 多 重 模 式 匹 配 所 采用 的 方案 ,而 且 它 在 实际 中 性 能 非常 好 。g 的 值 必 
须 是 21logsm 十 logsr ， 这 样 保证 平均 及 最 优 搜 索 时 间 是 Olnlog, (mr)/m)。 其 他 性 能 较 好 的 变 
种 是 对 BDM 的 一 些 扩展 。 

当 模式 的 数量 相对 于 它们 的 长 度 十 分 大 时 ， 没 有 任何 字符 跳 过 算法 表现 得 比较 好 ， 所 以 
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保证 每 个 文本 字符 只 扫描 一 次 的 方案 是 更 可 取 的 。 位 并 行 算 法 〈 见 9. 5.2 节 ) 在 这 个 情况 中 
也 没有 用 。 相 反 ， 我 们 可 以 建立 能 识别 了 ，P) | P;|… | P, 的 正则 表达 式 ， 然 后 运用 9. 5.4 节 
描述 的 DFA 构建 算法 。 生 成 的 DFA 的 大 小 与 所 有 模式 的 长 度 之 和 成 比例 ， 搜 索 时 间 是 
O(n)。 这 个 方案 与 经 典 的 用 于 多 字符 串 匹 配 的 Aho-Corasick 算法 十 分 类 似 。 

注意 ， 这 个 技术 也 能 扩展 成 搜索 多 重复 杂 模 式 ， 然 而 这 次 生成 的 DFA 的 大 小 可 能 与 模 
式 的 长 度 成 指数 关系 。 


9.5.6 近似 搜索 


近似 字符 串 匹配 用 一 个 阔 值 参数 & 扩 展 简 单字 符 串 匹配 ， 不 只 是 精确 的 已 的 记录 需要 
输出 ， 而 且 也 要 输出 那些 最 多 有 & 个 “错误 ”的 书 的 记录 。 对 于 “错误 ”， 有 不 同 的 定义 。 
一 个 十 分 流行 的 定义 对 应 于 所 谓 的 Levenshtein 距离 或 编辑 距离 : “错误 ”是 指 删 除 、 捅 人 
或 替换 一 个 字符 A 6. 5. 3 节 )。 这 个 模型 足够 简单 ， 可 以 执行 快速 搜索 ， 并 且 对 大 多 数 信 
息 检 索 场 景 是 有 用 的 。 我 们 将 要 说 明 有 些 算法 可 以 通过 很 小 的 改变 就 应 用 于 其 他 错误 模型 ， 
包括 交换 相 邻 的 字符 或 者 给 不 同 的 替换 赋予 不 同 的 权重 。 
该 问题 可 以 一 般 化 为 近似 模式 匹配 : 近似 地 搜索 一 个 表示 某 个 字符 串 集合 PP 的 复杂 模式 
或 正则 表达 式 ， 输 出 任何 能 够 在 最 多 & 个 错误 的 情况 下 转换 成 万 的 一 个 字符 串 的 文本 子 串 。 
对 这 个 问题 有 许多 解决 方案 ， 大 多 数 只 解决 近似 字符 串 匹 配 。 我 们 只 描述 最 实用 的 一 些 方法 。 
1. 动态 规划 
近似 字符 串 匹配 的 一 个 经 典 的 解决 方案 是 基于 动态 规划 。 和 矩阵 CL0.. m，0.. nj] 一 列 接 
着 一 列 填充 ， 其 中 Ci, j) 表示 将 ke Steet; 的 某 个 后 缀 相 匹 配 所 需要 的 最 小 错 
误 个 数 。 其 计算 方式 如 下 : 
CL[L0,j] =0, 
Cli.0] =i, 
Cli,j] =if(p; = 4) then Cli-1,j -1] 
else 1+ min(CLi—1,.7],CLi,j —1],CLi—1,j—1]) (9-2) 
在 那些 Clm, j] <k 的 文本 位 置 ;， 输 出 匹配 。 这 对 应 于 近似 记录 的 末尾 位 置 。 
图 9-31 展示 了 这 个 算法 。 它 需要 Ol(mn) 的 时 间 。 因 
为 当 计 算 新 的 一 列 时 ， 只 有 和 矩阵 的 前 一 列 是 需要 的 ， 所 以 
这 个 算法 可 以 只 占用 Om) 空间 。 
这 个 算法 尽管 并 不 十 分 快 ， 但 是 可 以 很 灵活 地 适应 其 
他 代价 函数 。 通 过 利用 动态 规划 矩阵 的 某 些 性 质 ， 它 的 几 
个 扩展 算法 在 最 坏 的 情况 下 取得 了 On) 的 时 间 复 杂 度 ， 
平均 情况 下 甚至 更 少 。 还 能 得 到 一 个 简单 的 Ol(kn) 平均 图 9-31 在 文本 


























“kolorama” 中 人 允许 


时 间 复 杂 度 的 算法 ， 只 要 在 计算 每 列 的 值 时 ， 如 果 知 道 所 带 有 两 个 错误 地 搜索 “col- 

有 接 下 来 的 值 肯定 会 超过 &， 那 么 就 不 计算 下 去 了 。 ar 的 动 帮 规 划算 法 。 吉 

图 9-32 给 出 了 这 个 变种 的 优化 伪 代 码 。 粗 的 条 目 表示 一 个 近似 记 
2. 自动 机 和 位 并 行 录 结 束 的 位 置 


近似 字符 串 匹 配 也 可 以 表达 为 一 个 NFA 搜索 。 考虑 图 9-33 所 示 的 允许 2 个 错误 的 
NFA。 每 行 表示 已 经 看 到 的 错误 个 数 ， 第 一 行 是 0， 第 二 行 是 1…… 每 一 列表 示 匹 配给 定位 
置 的 模式 。 在 每 次 迭代 中 ， 先 读 取 一 个 新 的 文本 字符 ， 然 后 自动 机 改变 其 活 著 状态 。 水 平 箭 
头 表示 匹配 一 个 字符 ,垂直 箭头 表示 插入 “错误 ”， 实 线 对 角 往 头 表示 替代 “错误 ”， 虚 线 对 
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角 箭 头 表示 删除 “错误 ”( 它 们 是 e 转移 ) 。 当 最 右 下 角 的 状态 被 激活 时 ， 就 表示 自动 机 接受 
了 某 个 文本 位 置 作为 允许 个 错误 的 匹配 的 末尾 。 


Approximate-DP (T = titz... tn, P = pipe--- Pm: k) 


(1) for i—0...m do Ci} i 
(2) last — k+l 

(3) for jl1...n dof 

(4) pC,nC 一 0 

(5) for ic 1...last do { 


(6) if pj =t; then nC + pC 

(7) else { 

(8) if pC <nC then nC + pC 

(9) if Cli) <nC then nC e Cii] 
(10) nC nC +l 

} 

(11) pC — Cli] 
(12) Cli] = nc 

(13) if nC <k 
(14) then if last =m then report an occurrence ending at position į 
(15) else last — last+1 ~ 


(16) else while Cjlast—1]>k do last — last — 1 
} 








图 9-32 基于 近似 字符 串 匹 配 的 动态 规划 伪 代 码 ， 做 了 一 些 优化 ， 平 均 
时 间 复 杂 度 是 OC(kn)。 它 假设 <<m 


不 难看 出 ， 每 次 自动 机 中 的 一 个 状态 活跃 时 ， 所 有 同 列 且 行 数 更 大 的 状态 也 是 活路 的。 
而 且 ， 在 某 个 给 定 的 文本 字符 ， 如 果 我 们 在 每 一 列 中 收集 最 小 的 活跃 状态 行 号 ， 那 么 正好 得 
到 动态 规划 算法 中 当前 列 的 值 〈 不 区 分 大 于 & 的 值 ) 。 比 较 图 9-33 和 图 9-31 。 














图 9-33 ”对 人 允许 带 有 两 个 错误 的 模式 “eolour” 进 行 近似 字符 串 匹 配 的 NFA。 有 阴影 的 状态 
387 是 那些 在 读 取 文本 “kolor” 后 的 活跃 状态 。 未 标记 的 转移 匹配 任何 字符 ， 虚 线 的 
箭头 是 e 转 移 


如 9. 5.4 节 所 描述 的 那样 ， 也 可 以 使 自动 机 确定 化 DFA)。 尽 管 搜索 阶段 是 Om) 复 
杂 度 ,但 DFA 在 这 种 情况 下 可 能 会 变 得 十 分 大 。 一 个 更 好 的 方案 是 基于 位 并 行 的 扩展 
Shift-And 算法 。 需 要 注意 的 是 ， 该 NFA 的 每 一 行 几乎 都 是 图 9-20 的 NFA 的 完全 复制 。 因 
此 ， 当 使 用 垂直 和 对 角 箭 头 时 ， 可 以 使 用 & 十 1 个 Shift-And 过 程 来 实现 。 

图 9-34 给 出 了 这 个 伪 代 码 。 我 们 感 兴趣 的 是 行 (8) 。 除 了 正常 的 Shift-And 操作 RT 
NFA 的 第 一 行 之 外 ， 都 不 包含 自 环 ) 外 ， 我 们 还 模拟 了 垂直 的 箭头 ， 即 与 上 一 轮 和 迭代 中 的 
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D， ,的 所 有 值 为 “1” 的 位 进行 “或 ”操作 (上 一 轮 的 D，, 值 保存 在 pD 中 )。 类 似 地 ， 对 角 
的 箭头 用 “ (ztD<<1) |1” 来 模拟 ，e 转移 〈 同 样 是 对 角 的 ) 对 应 于 “(nD<<1)》 |1”. 在 
这 种 情况 下 ， 我 们 使 用 新 的 D,，, 值 ， 因 为 。 转移 是 即刻 传递 的 。 

如 果 mx 三 w， 那 么 位 并 行 算法 需 
要 OCkn) 的 时 间 复 杂 度 。 通 过 模拟 
更 长 的 机 器 字 ， 更 长 的 模式 可 以 在 |O usi a a Bpl- apd ia<<g-m 
O Chmn/w) 时 间 内 处 理 。 位 并 行 同 | 的 for icok do DQ << 
样 可 以 用 于 并 行 计算 动态 规划 矩阵 ， | (5) pD 一 办 
平均 的 时 间 复 杂 度 是 OCn/w), 最 | 加 on goer 


= Hf te . (8) D+ ((D; ce 1) & Bit) | PD | ((pD | nD) << 1) [1 
坏 的 时 间 复 杂 度 是 OC(mn/w)。 对 于 (9) 5D — Di, Di nD P 


短 模式 ， 这 个 算法 最 坏 的 时 间 复 杂 (10) if aD & (1 << (m-1)) #0 © 加 
度 是 O(n), 在 实际 应 用 中 是 十 分 快 (11) omen report an occurrence ending at position 7 


的 。 不 过 ， 我 们 已 经 展示 了 更 加 灵 

活 的 算法 ,为 了 搜索 任何 允许 错误 “图 9-34 使 用 Shift And 算法 的 近似 字符 申 匹配 算法 的 伪 代 码 
的 复杂 模式 ， 如 果 我 们 能 够 用 位 并 行 模拟 精确 搜索 ， 那 么 我 们 能 够 很 容易 地 安排 上 十 1 个 这 样 
的 模拟 ， 以 获得 对 应 近似 模式 匹配 问题 的 位 并 行 算 法 。 关 于 算法 细节 ， 将 在 9. 8 节 中 给 出 一 
些 条 目 。 

3. 筛选 

通常 ， 确 定 一 个 文本 位 置 无 法 匹配 比 确定 它 能 在 个 错误 内 匹配 要 简单 多 了 。 短 选 
(filtration) 是 基于 在 文本 上 进行 快速 的 过 滤 ， 以 期 望 舍弃 大 部 分 文本 位 置 ， 然 后 在 那些 无 
法 舍弃 的 区 域 上 应 用 另 一 个 近似 搜索 算法 。 筛 选 的 效果 在 特定 的 k/m 限制 范围 内 都 很 好 。 

一 个 简单 快速 的 过 滤 过 程 是 :将 模式 切割 成 上 十 1 个 长 度 相 同 的 片段 。 事 实 上 ， 的 任 
何 近似 记录 都 必须 完全 相同 地 包含 这 些 片 段 中 的 至 少 一 个 〈 因 为 每 个 错误 至 多 只 能 改变 一 个 
这 样 的 片段 ) 。 然 后 ， 我 们 可 以 对 这 些 片 段 运行 一 个 多 模式 的 搜索 算法 〈 见 9. 5. 5 节 )。 如 果 
片段 Py by 出 现在 1;…t; ， 那 么 我 们 在 liji- ji-j+m+k 上 上 运行 近似 字符 串 匹 配 算法 。 对 于 
上 二 1/logsm， 算 法 平均 花费 O(nklog,(m)/m) 的 时 间 。 

另 一 个 更 加 强大 的 算法 继承 于 BDM (W 9.5.3 节 )， 它 在 实际 应 用 中 也 表现 得 十 分 好 。 
选择 一 个 小 的 值 ag， 对 所 有 o 个 可 能 的 gq-gram 中 的 任意 一 个 ， 在 已 中 查找 g-gram S， 然 后 
ER DLS] 中 记录 将 S 匹配 于 P 中 所 需 的 最 小 的 错误 数 。 现 在 ,在 LBBB 
titm—ko 反 向 读 取 窗口 的 gq-gram: Si 一 6 So 一 6rm zti' "titn-to 等 。 累加 
DLS,] 十 DLS: ] 十 … 十 DLS.]， 直 到 总 值 超过 &。 此 时 ， 我 们 知道 S.…S:S 不 可 能 包含 在 PP 
的 任何 记录 中 ， 因 此 我 们 可 以 安全 地 移动 窗口 从 S 的 第 二 个 字符 开始 ， 即 
i<-i 十 m 一 k 一 rg 十 1。 如 果 我 们 读 取 窗口 的 所 有 整个 g-gram， 并 且 错 误 总 值 仍然 不 超过 ， 
那么 我 们 必须 显 式 地 检查 从 窗口 位 置 开始 的 记录 ， 然 后 移动 窗口 一 个 位 置 。 





Approximate-Shift-And (T =tit2...tn, P = pip?...Pm,k) 








9.5.7 搜索 压缩 文本 


在 6.8 节 ， 我 们 已 经 描述 了 适合 文本 数据 库 的 压缩 机 制 ， 但 仪 关注 减少 空间 。 然 而 ， 我 
们 已 经 注意 到 搜索 压缩 文本 的 可 能 性 ， 甚 至 介绍 了 一 些 编码 方法 〈 如 字 节 堆 夫 曼 和 密集 编 
码 )， 它 们 的 主要 优点 是 能 够 直接 搜索 压缩 文本 。 其 基本 原理 是 在 之 前 介绍 过 的 字 节 雹 夫 曼 
编码 或 密集 编码 上 搜索 匹配 单个 词 的 模式 。 

我 们 首先 重新 考虑 在 压缩 文本 上 进行 序列 搜索 ， 展 示 信 息 检 索 领 域 所 关注 的 更 加 复杂 的 
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搜索 如 何在 6. 8 节 所 提出 的 格式 上 进行 。 我 们 已 经 展示 了 在 文本 中 搜索 与 单个 词 或 者 复杂 模 
式 相 匹配 的 词 串 的 过 程 ， 即 标记 匹配 模式 的 词汇 表 条 目 ， 然 后 遍历 压缩 文本 ， 识 别 原文 中 连 
续 的 符号 ， 检 查 它 们 是 否 被 标记 过 。 对 该 简单 方法 进行 扩展 ， 将 它 与 本 章 介绍 的 位 并 行 技术 
结合 起 来 ， 可 以 得 到 一 个 更 强大 的 方法 ， 能 够 匹配 复杂 得 多 的 模式 。 

让 我 们 从 短语 查询 开始 。6. 8 节 提 到 ， 搜 索 一 个 短语 可 以 通过 压缩 每 个 词 ， 并 在 压缩 的 
文本 中 搜索 目标 符号 连接 成 的 字符 串 来 实现 。 这 是 正确 的 ， 只 要 满足 下 面 的 条 件 : 1) 短语 
由 简单 的 词组 成 ， 每 个 词 都 可 以 转换 为 一 个 码 字 ; 2) 我 们 希望 分 隔 符 的 形式 与 查询 中 的 完 
全 一 样 。 也 就 是 说 ， 如 果 我 们 用 这 个 技术 查找 “United States”， 并 且 对 这 些 词 的 编码 分 别 是 
Cunits 和 Corres» BBA RTS FE AB Conia Cs 的 搜索 就 不 会 找到 用 换行 符 等 其 他 分 隔 符 分 隔 的 短 
> 因为 这 会 被 转换 为 码 字 Cunited C\ nC states o 回想 一 下 ， 在 无 空格 单词 模型 中 ， 并 不 对 一 个 
单 空 格 的 分 隔 符 进行 编码 ， 然 而 却 对 任何 其 他 的 分 隔 符 分 配 码 字 。 

一 个 更 加 健壮 的 搜索 方案 是 定义 词汇 模式 (word pattern) 。 例 如 ， 我 们 可 能 希望 搜索 任 
何以 大 小 写 不 敏感 的 形式 ， 并 且 人 允许 带 有 两 个 错误 匹配 “United”， 然 后 是 一 个 分 隔 符 ， 之 
后 是 任何 以 大 小 写 不 敏感 的 形式 ， 并 且 人 允许 带 有 两 个 错误 匹配 “States”。 为 了 找 出 词语 被 单 
个 空格 或 者 任何 其 他 序列 分 隔 的 情况 ， 我 们 必须 在 词 之 间 允 许 任何 分 隔 符号 ， 而 且 这 个 符号 
在 我 们 的 搜索 中 必须 是 可 选 的 。 

这 个 搜索 问题 可 以 通过 一 种 叫做 码 字 上 的 自动 机 Cautomaton over codeword) 的 方法 建 
模 。 令 C 是 由 压缩 器 创建 的 不 同 码 字 的 集合 。 如 果 我 们 把 C 当做 一 个 字母 表 ， 把 压缩 文本 
看 做 由 C 上 的 原子 符号 组 成 的 序列 ， 那 么 可 以 将 搜索 问题 定义 成 找 出 某 个 复杂 模式 的 记录 ， 
如 9. 5. 2 节 所 述 。 我 们 的 模式 有 三 个 状态 ， 每 个 状态 表示 一 类 字符 : 第 一 个 是 码 字 (C 的 元 
K) 的 集合 ， 这 些 码 字 对 应 于 以 大 小 写 不 敏感 的 形式 ， 并 且 允 许 带 有 两 个 错误 匹配 “Unit- 
ed”; 第 二 个 是 分 跌 符 的 码 字 的 集合 ， 它 是 一 个 可 选 的 类 ; 第 三 个 与 第 一 个 类 他， 但 对 应 于 
词 “States”， 如 图 9-35 所 示 。 注 意 它 与 图 9-20 和 图 9-22 的 相似 度 。 我 们 对 词汇 表 中 的 每 个 
词 和 分 隔 符 建立 一 个 位 掩 码 ， 这 些 位 掩 码 的 数组 是 用 于 位 并 行 搜索 的 BL」 表 。 我 们 考虑 短 
010 
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图 9-35 ”以 大 小 写 不 敏感 的 形式 搜索 短语 “United States” 的 通用 方案 ， 其 中 每 个 词 允 许 
有 两 个 错误 ， 词 之 间 人 允许 任何 分 隔 符 
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语 的 元 素 ， 包 括 分 隔 符 。 对 于 第 ; 个 元 素 ， 我 们 顺序 遍历 词汇 表 ， 设 置 或 清除 每 个 位 掩 码 的 
第 ;位 。 然 后 ， 我 们 建立 一 个 NFA， 并 用 位 并 行 来 模拟 它 。 在 我 们 的 例子 中 ， 之 前 已 经 解 
释 过 ， 第 二 个 位 置 必须 是 可 选 的 。 这 个 搜索 就 等 同 于 Shift-And-Extended 过 程 〈 见 图 9-24) 
的 一 个 变种 ， 其 中 的 B 表 我 们 已 经 建立 ， 同 时 参数 A=010, S=000. 

这 个 搜索 算法 与 图 9-24 中 代码 的 不 同 之 处 在 于 : 它 并 不 是 直接 在 字符 上 进行 操作 ， 相 
反 ， 算 法 中 for 循环 的 每 次 迭代 处 理 文 本 的 一 个 完整 的 词 或 者 分 隔 符 。 在 执行 行 (5) BT, 
我 们 必须 得 到 下 一 个 码 字 的 B] 的 值 〈 即 当 我 们 把 压缩 文本 看 做 C 上 的 一 个 序列 的 下 一 个 
符号 ) 。 为 此 ， 我 们 从 压缩 文本 中 读 取 尽 可 能 多 的 字 节 ， 直 到 我 们 识别 出 下 一 个 码 字 ， 而 且 
根据 码 字 我 们 可 以 得 到 对 应 的 词汇 表 中 的 词 或 分 隔 符 。 从 那个 词 或 分 隔 符 ， 我 们 得 到 它 的 也 
C] 的 值 ， 然 后 用 行 《5) 进行 处 理 。 

这 个 过 程 可 以 用 于 搜索 复杂 得 多 的 模式 ， 包 括 一 些 在 非 压 缩 文本 中 也 很 难 执行 的 搜索 任 
务 。 人 例如， 假设 我 们 希望 搜索 “the number of elements successfully classified”， 或 者 其 他 类 
似 的 短语 。 许 多 其 他 的 短语 在 某 种 程度 上 表示 同样 的 意思 ， 例 如 : 


the number of elements classified with success 

the elements successfully classified 

the number of elements we successfully classified 

the number of elements that were successfully classified 
the number of elements correctly classified 

the number of elements we could correctly classify 


可 以 看 出 ， 尽 管 通过 人 允许 近似 匹配 单个 词 ， 可 以 匹配 某 些 变 体 ， 但 是 我 们 需要 一 个 更 加 强大 
的 机 制 来 得 到 那些 语言 学 上 的 变化 。 如 9. 5. 6 节 所 说 的 ， 字 符 级 别 的 近似 字符 串 匹配 可 以 从 
本 地 的 错误 中 恢复 ， 如 那些 因为 输入 错 或 寿 错 而 产生 的 错误 。 为 了 从 上 面 所 说 的 语言 学 上 的 
变 体 中 人 恢复， 我们 必须 采用 词 级 别 的 近似 字符 串 匹 配 。 在 这 个 模型 中 ， 我 们 搜索 词 的 序列 ， 
并 人 允许 一 定数 目的 丢失 、 新 增 或 替换 的 词 。 例如， 在 允许 三 个 词 级 别 的 错误 时 ， 可 以 将 上 面 
例子 中 所 有 的 变 体 恢复 出 来 假设 我 们 同时 允许 字符 级 别 的 错误 把 “classify” 转 换 为 “clas- 
sified”) 。 

通过 扩展 图 9-35 所 说 明 的 方案 ， 可 以 很 容易 地 得 到 词 级 别 的 近似 字符 串 匹 配 。 想 象 这 
次 我 们 使 用 一 个 像 图 9-33 一 样 的 NFA， 其 中 每 列 对 应 于 短语 中 的 一 个 词 。 我 们 可 以 模拟 
Approximate-Shift-And ( 见 图 9-34) 过 程 ， 其 中 ， 每 个 后 续 的 BL] 值 可 以 在 像 之 前 那样 ， 
通过 解析 一 个 码 字 后 得 到 。 


9.6 多 维 索引 


在 多 媒体 数据 中 ， 我 们 可 以 用 多 个 数字 特征 代表 每 个 对 象 。 例 如 ， 从 一 张 图 我 们 可 以 抽 
取出 颜色 直方 图 、 边 缘 位 置 等 。 在 这 种 情况 下 进行 搜索 的 一 种 方法 是 ， 把 这 些 对 象 特征 映射 
到 多 维 空间 中 的 点 ， 然 后 使 用 多 属性 访问 方法 (也 可 以 叫做 空间 访问 方法 (Spatial Access 
Method, SAM)) 来 对 它们 进行 聚 类 和 搜索 。 另 一 个 方法 是 为 对 象 定义 一 个 距离 函数 ， 然 后 
使 用 基于 距离 的 索引 (也 叫做 度量 访问 方法 (Metric Access Method，MAM) ) 。 

主要 映射 方法 可 以 分 为 三 类 : D R' 树 和 R 树 家 族 的 其 余 成 员 ; 2) 线性 四 叉 树 ; 3) 网 
格 文件 。 

这 些 方法 中 的 一 些 方法 随 着 维度 的 增加 产生 指数 爆炸 现象 ， 最 终 变 成 顺序 扫描 。 线 性 
四 叉 树 的 代价 与 查询 区 域 的 超 曲 面 成 比例 [545]; 而 超 曲 面 随 着 维度 呈 指 数 级 数 增 长 。 
网 格 文件 面临 类 似 的 问题 ， 因 为 它们 需要 一 个 目录 ， 这 个 目录 也 随 着 维度 呈 指 数 级 数 增 
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长 。 如 果 能 保证 RSA RH HAT 2 的 话 ， 那 么 基于 R 树 的 方法 对 于 高 维 数 据 似 乎 
是 最 健壮 的 方法 。 下 面 ， 我 们 简单 地 介绍 RR 树 和 它 的 变种 ， 因 为 它 是 空间 访问 方法 的 一 
个 典型 形式 。 

R 树 通 过 最 小 边界 矩形 (Minimum Bounding Rectangle, MBR) 来 表示 一 个 空间 对 象 。 
数据 矩形 组 合 起 来 形成 父 结 点 ， 父 结 点 又 递归 地 组 合 起 来 ， 形 成 祖父 结 点 ， 最 终 形 成 一 棵 
树 。 一 个 父 结 点 的 MBR 完全 包含 子 结 点 的 MBR; MBR 之 间 人 允许 重 释 。 树 的 结 点 对 应 于 硬 
BR. MAM, 或 者 叫 “ 人 硬盘 块 "， 是 在 春 盘 表面 连续 的 字 节 ， 通 常 内 需要 一 次 硬盘 访问 就 
可 以 得 到 。 在 树 中 插入 、 分 割 和 删除 操作 的 目标 是 形成 好 的 化， 即 少量 、 紧 密 的 父 MBR。 
9-36 ka TRE 〈 黑 色 )， 并 形成 一 个 扁 出 为 3 W RH. E 9-37 展示 了 该 R 树 的 文 
件 结构 ， 其 中 结 点 对 应 于 硬盘 页 。 
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图 936 BWA SH RA EI). 图 9%-37 图 9-36 中 的 RR 树 
实 线 、 轻 虚线 、 重 虚线 表示 父亲 、 祖 父 CHA 3) 的 文件 结构 


和 曾祖 父 结 点 〈 在 这 个 例子 中 是 根 结 点 | 

范围 查询 指定 了 茶 个 兴趣 区 域 ,需要 检索 与 之 相交 的 所 有 数据 区 域 。 为 了 回答 这 个 查 
询 ， 首 先 找 出 满足 条 件 的 数据 区 域 的 超 集 : 计算 查询 区 域 的 MBR， 然 后 递归 地 向 下 遍历 R 
树 ， 排 除 那 些 其 MBR 与 查询 MBR 不 相交 的 分 支 。 因 此 ，R 树 将 使 我 们 快速 地 找到 那些 其 

392] MBR 与 查询 MBR 相交 的 数据 区 域 。 然 后 进一步 检查 得 到 的 数据 区 域 与 查询 区 域 之 间 的 
交集 。 

最 初 关于 R 树 的 论文 激发 了 大 量 后 续 的 工作 ， 如 在 9.8 节 所 描述 的 。 在 众多 变种 中 ， 
R* i [165」 似 乎 是 性 能 最 好 的 方法 之 一 。R* 树 在 结构 上 与 R 树 一 样 ; 主要 区 别 是 在 分 割 
算法 上 巧妙 的 提高 ， 它 基于 一 个 称 为 强制 重新 插入 (forced reinsert) 概念 。 当 一 个 结 点 洲 
出 时 ， 小 心地 选择 它 的 一 些 子 结 点 ; 把 它们 删除 ， 然 后 重播 人 ， 通 常会 生成 一 个 拥有 更 好 结 
构 的 R 树 。 然 而 ， 需 要 特别 关注 的 是 ， 任 何 空间 访问 方法 都 可 以 使 用 ， 如 和 X 树 、SR 树 等 。 

当 从 对 象 中 抽取 数字 特征 并 不 简单 ， 或 者 对 象 之 间 存 在 熟知 的 距离 晴 数 时 ,也 可 以 使 用 
度量 访问 方法 。 例 如 ， 编 辑 距 离 可 以 用 来 衡量 字符 串 之 间 的 相似 度 ， 余 改 距离 或 相似 性 可 以 
用 来 衡量 文档 间 的 相似 度 ( 兄 6. 5. 3 节 )。 在 度量 空间 中 ， 一 个 舍弃 对 象 的 主要 技术 是 三 角 
不 等 式 。 我 们 在 本 章 的 最 后 给 出 了 这 种 数据 结构 的 参考 文献 。 


9.7 ”趋势 和 研究 问题 


本 章 关 注 信息 检索 系统 的 实现 ， 主 要 关注 效率 问题 。 我 们 介绍 了 索引 搜索 和 序列 搜索 ; 
在 实际 的 实现 中 ， 很 多 情况 下 这 两 种 搜索 是 结合 的 。 我 们 考虑 了 不 同 的 检索 模型 ， 如 排序 检 
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索 、 布 尔 检索 、 结 构 化 检索 、 面 向 词语 的 全 文 搜索 ， 以 及 面向 任意 文本 子 串 的 全 文 搜索 。 我 
们 还 介绍 了 压缩 机 制 ， 以 及 它们 与 索引 和 序列 搜索 之 间 的 关系 。 
在 索引 和 搜索 文本 数据 库 领 域 ， 如 今 的 主要 趋势 是 : 


大 文档 集 。 可 用 的 电子 文档 数据 的 数目 增长 很 快 。 现 在 ， 通 常 需要 处 理 上 数 吉 字 节 
(GB) 的 文本 ， 并 且 必 须 每 秒 回答 多 个 查询 。 这 对 信息 检索 系统 提出 了 巨大 的 挑战 。 
即使 是 十 分 简单 的 结构 ， 如 倒 排 索引 ， 也 需要 复杂 的 实现 以 便 在 非常 大 的 数据 库 上 
得 到 可 观 的 性 能 。 问 题 通 常 不 是 存储 空间 ， 而 是 二 级 存储 设备 的 速度 。 处 理 融 和 相 
对 较 慢 的 外 部 设备 的 速度 导致 新 的 空间 与 时 间 的 折 中 ， 而 在 儿 年 前 是 不 推荐 这 样 做 
的 。 例 如 ， 为 了 避免 访问 外 部 存储 ， 直 接 操 作 压 缩 形式 的 索引 是 比较 值得 的 ， 即 使 
这 比 不 压缩 的 操作 要 更 慢 。 同 样 ， 在 能 够 取得 好 效果 的 复杂 检索 模型 与 高 效 地 实现 
它们 之 间 会 有 冲突 。 

复杂 搜索 。 随 着 文本 数据 库 的 增长 ， 并 变 得 越 来 越 混杂 和 易 出 错 ， 需 要 有 更 强 的 查 
询 工 具 来 实现 有 效 的 检索 。 一 方面 ， 容 错 搜索 或 复杂 模式 匹配 等 一 些 特性 可 以 提高 
个 回 率 。 另 一 方面 ， 利 用 文本 结构 的 查询 、 长 的 合 取 查 询 ， 或 者 短语 查询 ， 也 可 以 
提高 准确 率 。 由 于 这 些 原 因 ， 高 效 地 支持 一 些 不 只 是 简单 词语 的 短 序列 的 查询 就 显 
得 至 关 重 要 。 

压缩 索引 。 因 为 中 央 处 理 器 和 外 部 设备 的 性 能 差别 不 断 增 大 ， 以 及 这 个 领域 最 新 的 
发 展 ， 文 本 检索 和 压缩 不 再 认为 是 两 个 无 关 的 事情 。 相 对 于 不 压缩 的 文本 搜索 ， 直 
接 在 压缩 文本 上 的 搜索 ， 同 时 提供 了 更 好 的 〈 有 时 甚至 是 好 得 多 ) 时 间 性 能 和 更 少 
的 空间 开销 。 最 近 ， 有 很 多 关于 压缩 和 索引 之 间 关 系 的 研究 ， 发 现 了 一 些 重要 的 联 
系 ， 由 此 可 以 产生 一 些 很 实用 的 自 索 引 结构 。 这 些 索 引 比 文本 占用 更 少 的 空间 ， 能 
够 以 索引 的 方式 访问 它 ， 而 且 ， 它 们 还 可 以 替代 文本 ， 因 为 它们 可 以 重 现任 何 文本 
子 串 。 这 方面 的 研究 在 未 来 的 几 年 内 有 和 希望 得 到 更 进一步 的 结果 。 

优化 处 理 。 新 的 计算 机 体系 结构 有 多 个 处 理 器 ， 它 们 可 能 是 完全 一 样 的 ， 可 以 方便 
地 实现 并 行 化 ; 或 者 是 不 一 样 的 ， 如 在 高 级 的 多 核 CPU 中 。 如 何 充 分 利用 可 能 是 不 
同类 型 的 多 个 处 理 器 将 变 得 越 来 越 重要 。 一 个 特别 的 例子 是 ， 利 用 当前 机 器 上 的 可 
用 图 形 处 理 器 [500]. 

在 高 维 空间 中 搜索 。 直到 今天 ， 尽 管 有 很 多 的 研究 ， 但 在 高 维 空 间 中 搜索 对 象 时 ， 
可 扩展 性 仍然 是 一 个 问题 。 这 就 是 所 谓 的 维度 灾难 (curse of dimensionality) 。 然 
而 ,通常 对 于 上 百 万 的 对 象 ， 搜 索 时 间 是 可 接受 的 ,但 是 对 于 Web 上 数 十 亿 的 对 象 
却 仍然 是 无 法 接受 的 。 最 近 ，Chavez 等 人 [359] 提出 了 一 个 比较 有 前 途 的 方法 。 


9.8 文献 讨论 

关于 倒 排 索引 ，Zobel 和 Moffat[1798] 给 出 了 一 个 完整 的 文献 讨论 。 他 们 不 仅 讨 论 了 
索引 和 搜索 ， 而 且 还 有 相关 的 主题 。 另 一 个 比较 好 的 综述 是 由 Baeza-Yates 等 人 [113] 给 
出 的 。[1149] 描述 了 基于 排序 的 索引 构建 。[65] 研究 了 另 一 个 避免 排序 的 可 选 构建 方法 。 
[705] 展示 了 另 一 个 构建 算法 。[56，57，58] 讨论 了 当 在 倒 排 索 引 中 处 理 查询 时 ， 如 何 提 
前 终止 的 其 他 技术 。 压 缩 倒 排 索引 的 进一步 结果 在 [1738，1739] P. 

块 寻 址 倒 排 索引 的 想法 首先 在 一 个 叫做 Glimpse[1078」 的 系统 中 提出 来 ， 它 也 是 第 一 个 提出 
用 倒 排 索引 的 词汇 表 来 进行 复杂 模式 匹配 的 系统 。[116] 分 析 了 块 寻 址 索引 ， 它 提高 了 性 能 。 

关于 压缩 的 参考 文献 ， 可 以 查看 6.1047. Æ [532] 提出 Elias 编码 后 ，[635] 提出 了 
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Golomb 编码 后 ， 而 C1709] 则 给 出 了 如 何 将 关于 这 些 技术 运用 到 压缩 的 倒 排 索引 的 最 好 冰 
WB. [1158] 探索 了 将 这 些 技术 与 块 寻 址 和 文本 压缩 结合 起 来 。 

后 缀 树 最 先 由 11678] EH. [1108] 给 出 了 线性 时 间 内 构建 后 缀 树 的 方法 ， 但 是 第 一 
个 在 线 构建 方法 〈 从 左 向 右 扫描 文本 ) HA [1616]。[108] 描述 和 分 析 了 在 后 缀 树 上 搜索 
正则 表达 式 ， 而 容错 搜索 在 [1181，1615] 中 得 到 了 研究 。 

L1075] 提 出 了 后 缀 数组 和 一 个 构建 算法 最 坏 情况 需要 O(zlogz) 次 字符 比较 ， 平均 
需要 OCnloglogn) 次 。 后 缀 数组 同时 被 1646] 独立 发 现 ， 它 的 名 字 是 “PAT 数组 ”。 现 在 
有 许多 实用 的 后 缀 数组 构建 算法 。 实 际 效 果 最 好 的 可 能 是 一 个 叫做 “deep-shallow” 的 算法 
[L557]。 这 篇 论文 还 综述 了 最 相关 的 可 选 实用 方案 。deep-shallow 的 免费 代码 可 以 从 http: // 
roquefort. di. unipi. it/~ferrax/SuffixArray 下 载 。 在 理论 方面 ， 有 线性 时 间 的 构建 算法 。 最 
简单 的 只 需要 数 十 行 的 代码 [876]j]， 然 而 它 比 最 佳 实用 算法 要 慢 ， 而 且 需 要 很 多 的 额外 空 
间 。 我 们 已 经 说 明 的 那个 构建 大 型 后 缀 数组 的 算法 在 [647] 中 提出 。 最 近 的 一 个 综述 
[441] 证 实 这 个 算法 仍然 是 最 佳 实用 算法 之 一 。 对 于 查询 在 磁盘 上 的 后 缀 数组 ，[1182] 展 
示 了 一 些 结果 。 

关于 后 缀 数组 压缩 的 核心 文章 都 是 基于 于 函数 [681，1404，l1405] 和 BWT [556， 
557]， 以 及 许多 后 续 工 作 。 小 波 树 在 [680] 中 提出 ， 并 在 [558，1073] 中 应 用 于 基于 
BWT 的 索引 。 有 些 压 缩 索 引 其 至 并 不 是 在 后 缀 数组 概念 上 建立 的 [1177]。 最 近 的 一 个 全 
面 综述 是 [1184]。 那 些 索 引 的 许多 原型 在 镜像 http://pizzachili, dec. uchile. cl 和 http: //piz- 
zachili. di. unipi. it 上 是 可 以 免费 获得 。 

关于 签名 文件 的 材料 基于 [547]。[546] 解释 了 保存 签名 文件 的 不 同 替 代 方 法 。 

一 本 关注 于 序列 搜索 的 实用 算法 、 并 深入 讨论 9.5 节 大 部 分 内 容 的 好 书 是 [1187]。 在 
更 加 理论 的 模式 匹配 方面 加 以 阐述 的 其 他 书籍 包括 [448]。 一 个 公开 的 、 强 大 的 模式 匹配 工 
RE Gnu Grep LH, EF http://www. gnu. org 上 可 下 载 。 

Horspool 算法 在 [774 中 提出 ， 它 是 原始 的 Boyer-Moore 算法 [246] 的 一 个 简化 变 
种 。Boyer-Moore 比 Horspool 取得 更 长 的 平移 ， 但 是 计算 它们 所 需要 的 时 间 使 得 它 总 体 来 
说 更 不 实用 。 另 一 个 著名 的 变种 是 Sunday 算法 [1545]， 但 是 根据 我 们 的 经 验 ， 如 果 加 入 
了 “skip-loop”， 那 么 Horspool 的 变种 更 快 [1187], Knuth-Morris-Pratt 算法 [912] AE 
在 最 坏 情 况 下 也 能 取得 O(n) 的 复杂 度 而 著名 ， 然 而 在 实际 中 它 还 是 比较 慢 的 。 如 果 保 证 最 
坏 情 况 下 的 线性 性 能 是 重要 的 ， 那 么 可 以 把 它 与 其 他 算法 结合 起 来 ， 以 保持 很 好 的 平均 情 
况 ， 同 时 把 坏 情况 约束 在 O(n) 内 。Agrep 软件 在 [1723] 中 描述 ， 它 可 以 从 glimpse 在 
ftp: //ftp. cs. arizona. edu 上 的 发 布 版 本 中 得 到 。 

使 用 位 并 行 来 实现 自动 机 的 想法 最 开始 是 在 [107] (Shift-Or， 它 是 Shift-And 的 一 个 
变种 和 扩展 ) 和 [1724] (Shift-And 和 我 们 已 经 展示 过 的 近似 匹配 的 扩展 ) 中 提出 的 。 后 缀 
自动 机 和 BDM 在 [469] 中 介绍 。 它 的 位 并 行 实现 CBNDM) 和 多 个 扩展 在 [1186] 中 展 
示 。 交 错 Shift-And 最 近 在 [586] 中 提出 。 一 个 基于 BNDM 构建 并且 支 持 本 章 涉 及 的 多 
个 模式 的 软件 叫 nrgrep， 它 在 [1176] 中 描述 ， 并 在 http://www. dec. uchile. cl/~ gnavar- 
ro/software 上 公开 。 

在 图 9-38 中 ， 我 们 对 许多 算法 进行 了 实验 比较 ， 说 明了 它们 中 的 哪些 在 实际 中 比较 好 。 

正则 表达 式 和 将 它们 转变 成 NFA、DFA 和 DFA 最 小 化 的 方法 ， 可 以 在 许多 经 典 的 书 
中 找到 ， 如 [1772]。Thompson 算法 的 原始 文献 是 [1584]。 [1188] 考虑 了 其 他 构建 方法 ， 
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以 及 它们 在 通用 NFA 位 并 行 模拟 中 的 应 用 。 
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c) 


图 9-38 字符 串 匹 配 算法 的 实际 比较 : a) 是 在 英语 文本 上 的 短 模式 ; 
b) 是 在 DNA 上 的 长 模式 ;ec) 是 在 随机 文本 〈64 个 字母 ) 
上 的 短 模式 。 时 间 单 位 是 X10 秒 /MB (1998 年 ) 
著名 的 多 模式 搜索 算法 有 Aho-Corasick[22]、Commentz-WalterL409]、MultiBDM 
[447] 和 MultiBOM[1187]。agrep 工具 的 多 模式 搜索 因 它 的 速度 而 闻名 。 
关于 近似 字符 串 搜 索 的 一 个 综述 是 [1175]。 经 典 的 动态 规划 方案 可 以 在 [1449] 中 找 
到 。 我 们 介绍 的 将 平均 时 间 提 高 到 On) 的 算法 来 自 于 [1614]。 一 个 最 坏 情 况 是 O(kn) 
的 算法 在 [973] 中 描述 ,但 它 并 不 实用 。 [1614] 使 用 了 DFA, 但 是 它 产生 太 多 的 状态 。 
这 个 问题 的 位 并 行 方法 最 先 在 [1724] 中 开始 ， 尽 管 现 在 最 快 的 位 并 行 算法 是 [1166] 和 
[117]。 在 所 有 的 筛选 算法 中 ， 实 际 最 快 的 算法 是 基于 [1724] 提出 的 一 个 想法 ， 并 在 
[1180] 中 提高 。 另 一 个 在 本 章 讨论 的 算法 来 自 [587]. 
关于 搜索 压缩 文本 ， 这 里 讨论 的 最 复杂 的 算法 在 [1158] 中 介绍 。 在 图 9-39 中 ， 以 时 
间 - 空 间 复杂 度 图 的 形式 显示 了 本 章 中 讨论 的 大 多 数 技术 。 
对 于 空间 访问 方法 的 一 个 全 面 综 述 见 [1419]， 或 者 见 更 早 的 [616]。 对 于 R 树 的 介 
绍 ， 可 以 参见 Guttman[688] 的 、 有 重大 影响 的 文章 。 在 许多 后 续 的 变种 中 ，R" 树 [165] 
似乎 是 性 能 最 好 的 方法 ， 它 使 用 “强制 重新 插入 ”、 延 迟 分 割 的 想法 ， 因 此 取得 了 更 高 的 空 
间 利 用 率 ， 进 而 得 到 了 更 简洁 、 更 短 、 更 快 的 树 。 另 一 个 强 有 力 的 竞争 者 是 Hilbert RW 
[865]， 它 甚至 取得 了 更 高 的 空间 利用 率 ， 常 常 比 R 树 表现 得 更 好 。 所 有 这 些 方 法 的 一 个 
通用 框架 和 实现 是 GiST 树 [743]。 
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图 9-39 ”额外 空间 使 用 与 词 搜索 时 间 之 间 的 权衡 


对 于 这 些 算法 ， 范围 搜 索 在 R 树 中 是 平凡 的 。 最 近邻 查询 需要 更 仔细 的 记录 保留 ， 以 
及 分 支 定 界 算法 (u [1388])。 空 间 连 接 (如 “ 找 出 所 有 距离 在 6 以 内 的 点 对 ”) 也 吸引 了 
很 多 的 目光 : 参见 [264] 中 的 过 滤 算 法 和 [1044] 及 [936] 中 的 方法 。 

索引 高 维 地 址 空间 已 经 吸引 了 很 多 的 目光 。 我 们 首先 要 提 到 的 数据 结构 是 : TV 树 
[1035]， 它 只 使 用 可 用 维度 中 的 一 部 分 SR 树 [879]j， 它 使 用 超 球 与 矩形 作为 边界 区 域 ; 
X 树 [185]， 它 将 极 高 的 维度 优雅 地 转变 成 序列 扫描 。 

对 于 空间 访问 方法 和 选择 性 估计 的 分 析 , “分 形 维度 ”的 概念 已 经 在 它 尝试 过 的 每 种 情 
况 中 都 给 出 了 十 分 精确 的 结果 : 范围 查询 [549]、 最 近邻 查询 [1243]、 空 间 连 接 [176]、 
四 叉 树 [548]。 分 形 维度 的 想法 是 考虑 给 定点 集合 的 内 在 维 数 。 例 如 ， 考 虑 在 一 个 3 维 立 方 
体 对 角 线 上 的 点 : CHERE E=3; 然而 ， 其 内 在 维 数 是 D==1。 使 用 合适 的 维 数 定义 ， 如 
Hausdorff 分 形 维度 或 者 关联 分 形 维度 [1443]， 可 以 发 现 真实 的 数据 集 都 有 一 个 分 形 维 数 : 
海岸 线 是 1. 1 一 1.2， 哺 乳 动物 的 大 脑 表 面 大 约 是 2.7， 雨 点 的 周围 大 约 是 1. 3， 路 段 的 终点 
大 概 是 1.7， 不 一 而 足 [549]. 

最 后 ， 直 接 在 距离 函数 上 操作 的 访问 方法 似乎 更 有 前 途 。 正 如 之 前 提 到 的 ， 这 些 方法 只 
需要 一 个 距离 函数 ， 同 时 它们 通常 建立 一 个 层次 育 类 ， 即 一 个 “ 超 球 ” 的 树 结 构 ， 它 包括 子 
超 球 等 。 这 类 方法 包括 :; Burkhard-Keller 方法 [297], Fixed-query 树 [102]. GNAT 树 
[260]. MVP $ [247] 和 M 树 [385]。 这 个 技术 仍然 十 分 年 轻 ; 上 面 的 大 多 数 方法 是 为 静 
态 数据 集 设计 的 。 积 极 的 一 面 是 ， 它 们 并 不 需要 进行 特征 抽取 ; 消极 的 一 面 是 ， 它 们 并 不 提 
供 可 视 化 和 数据 挖掘 。 对 这 类 数据 结构 的 一 个 很 好 的 综述 参见 [360]. 
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10.1 介绍 


如 今 网 络 上 的 电子 文本 数量 多 得 十 分 惊人 。 有 人 计算 过 ， 只 是 Web 就 包含 了 超过 200 
亿 个 网 页 文本 ， 这些 文本 组 成 数 百 TB 的 数据 。 而 且 ， 如 第 11 章 所 讨论 的 那样 ， 它 还 在 以 
指数 级 的 速度 不 断 增长 ， 几 乎 每 年 就 翻 一 倍 。 此 外 ， 大 型 的 信息 服务 提供 商 ， 如 Lexis-Nex- 
is 〈 见 第 16 章 )， 已 经 积累 了 超过 TB 大 小 的 数据 库 。 在 一 个 稍微 小 一 点 的 量 级 上 ， 最 大 的 
企业 内 网 现在 也 包含 数 百 万 个 网 页 。 随 着 硬盘 空间 变 得 越 来 越 便宜 ， 以 及 电子 内 容 变 得 越 来 
越 容 易 产生 、 下 载 和 保存 ， 甚 至 连 保存 在 个 人 计算 机 上 的 私人 在 线 文档 集 也 变 得 越 来 越 大 。 

随 着 文档 集 不 断 增长 ， 它 们 也 变 得 越 来 越 难 管理 。 而 且 ， 因 为 搜索 和 索引 的 代价 随 着 文档 
集 的 大 小 不 断 增 长 ， 大 型 文档 集 不 可 避免 地 会 导致 更 长 的 响应 时 间 。 随 着 更 多 的 文档 加 入 到 系 
统 中 ， 如 果 没 有 管理 好 性 能 问题 ， 那 么 操作 可 能 就 会 恶化 ， 导 致 系统 不 可 用 。 相 关 的 问题 是 ， 
因为 搜索 引擎 的 大 部 分 收入 来 自 显示 搜索 相关 的 广告 ， 而 它 的 数目 又 与 响应 的 查询 请 求 数 日 成 
正比 〈 见 11. 10. 1 节 )， 所 以 搜索 引擎 提供 快速 查询 处 理 的 能 力 关系 到 它 的 经 济 生 存 状况 。 

为 了 满足 现代 搜索 环境 的 敬 刻 需求 ， 有 必要 考虑 其 他 架构 和 算法 。 本 章 将 探索 并 行 和 分 
布 式 信息 检索 技术 ， 它 是 对 第 9 章 的 补充 。 并 行 和 分 布 式 计 算 的 应 用 可 以 极 大 地 加 强 传统 信 
息 检 索 算 法 的 可 扩展 性 ， 支 持 越 来 越 大 的 文档 集 和 查询 吞吐 量 ， 特 别 是 在 Web E. 

因为 历史 原因 ， 分 布 式 检索 最 开始 是 与 联合 搜索 (federated search) 联系 在 一 起 的 。 也 





就 是 说 ， 在 多 个 通常 是 异 质 而 且 互 相 独 立 的 搜索 服务 的 集合 中 进行 搜索 。 一 个 典型 的 例子 是 
元 搜索 (metasearch) 引擎 ， 它 把 每 个 查询 发 给 许多 搜索 引擎 ， 然 后 收集 不 同 的 结果 ， 合 并 
它们 以 生成 最 后 的 答案 。 在 这 种 情况 下 ， 每 个 搜索 引擎 自己 维护 索引 和 结果 排序 。 在 展示 结 
果 之 前 ， 元 搜索 引擎 只 需要 合并 它 所 使 用 的 搜索 引擎 产生 的 内 容 ， 而 不 需要 知道 它们 的 排序 
函数 。 显 然 ， 最 终 的 答案 依赖 于 不 同 搜索 引擎 所 产生 的 答案 。 因 为 其 中 的 一 些 答案 可 能 需要 
花 较 长 的 时 间 来 产生 ， 所 以 元 搜索 引擎 通常 采用 一 个 计时 机 制 ， 只 考虑 那些 在 给 定时 间 间 隔 
内 产生 的 答案 。 因 此 ， 给 用 户 展示 的 内 容 受 网 络 流量 状况 的 影响 ， 这 也 是 元 搜索 引擎 的 一 个 
主要 缺点 。 

如 果 所 有 的 服务 器 使 用 同样 的 软件 ， 那 么 就 产生 了 另 一 类 型 的 分 布 式 信息 检索 系统 。 在 
这 种 情况 下 ， 所 有 服务 器 的 排序 函数 都 是 已 知 的 ， 这 意味 着 可 以 合作 生成 一 个 更 一 致 、 更 高 
质量 的 排序 。 尽 管 实际 上 搜索 服务 分 布 在 不 同 物理 位 置 的 许多 机 器 上 ， 但 这 些 服务 器 是 同 质 
的 ， 并 且 在 中 央 控 制 下 操作 ， 于 是 就 可 能 给 用 户 只 有 一 个 搜索 系统 的 错觉 。 因 为 这 和 Web 
的 情况 类 似 ， 我 们 叫 它 分 布 式 检索 。 

在 分 布 式 检索 系统 中 ， 每 个 服务 中 心 可 能 是 由 几 千 个 合作 提供 服务 的 服务 器 组 成 。 例 
如 ， 考 虑 一 个 在 大 小 为 N 的 文本 集 上 、 每 秒 能 回答 Nw 个 查询 的 检索 系统 ， 它 使 用 一 个 只 
有 单个 处 理 器 的 服务 器 。 为 了 增加 查询 吞吐 量 和 文档 集 大 小 ， 可 以 增加 更 多 的 机 器 来 形成 一 
个 由 快速 局 域 网 连接 的 服务 器 集群 C。 于 是 我 们 就 有 了 一 个 基于 集群 的 搜索 系统 。 通 过 将 索 
引 划 分 到 集群 中 的 服务 器 上 ， 可 以 显著 地 增 大 文档 集 。 这 就 是 索引 划分 Cindex partitio- 





399 








400 


294 。 第 10 章 并 行 与 分 布 式 信息 检索 


ning) 的 问题 。 给 定 一 个 已 经 划分 了 索引 的 机 器 集群 C， 我 们 同样 希望 最 大 化 每 秒 处 理 的 查 
询 数目 Nope ， 以 降低 总 体 开 销 。 这 就 是 查询 处 理 〈query processing) 问题 ， 它 受到 索引 划 
分 的 影响 。 

一 旦 我 们 有 了 高 效 的 机 器 集群 ， 我 们 可 能 仍然 需要 提高 查询 吞吐 量 来 满足 不 断 增长 的 需 
求 。 这 通常 通过 复制 整个 集群 来 实现 。 一 个 配置 集群 的 常见 方法 是 把 完整 的 索引 在 每 个 集群 
上 都 复制 一 遍 。 在 这 种 情况 下 ， 每 个 集群 都 能 独立 处 理 任 何 查询 。 这 是 现代 搜索 引擎 的 配 
置 ， 即 一 个 由 多 个 集群 组 成 的 分 布 式 检 索 系 统 。 这 个 架构 能 不 断 地 提高 查询 吞吐 量 ， 同 时 通 
过 使 服务 器 靠近 用 户 来 降低 时 延 。 

如 果 完 整 的 索引 无 法 保存 在 单个 集群 上 ， 那 么 我 们 可 以 将 索引 划分 到 多 个 集群 上 。 由 此 
能 够 产生 许多 关于 可 扩展 性 的 解决 方案 ， 如 图 10-1 所 示 。 为 了 组 织 这 些 方案 ， 在 纵 轴 上 显 


示 复 制 ， 而 在 横 轴 上 显示 划分 。 基 于 集群 的 搜索 引 划分 
擎 组 织 方式 是 Web 检索 的 关键 ， 它 的 应 用 将 在 A 
11. 4. 2 Witt. 


第 四 个 提供 可 扩展 性 的 选择 是 对 服务 器 增加 更 
多 的 处 理 器 、 内 存 和 磁盘 ， 以 增加 并 行 处 理 能 力 ， | 
不 过 目前 使 用 得 并 不 多 。 在 这 种 情况 下 ， 处 理 器 通 
过 内 部 总 线 紧 密 地 连接 在 一 起 ， 这 使 得 传输 数据 的 2 a 
带宽 比 局 域 网 更 高 。 而 且 ， 机 器 可 以 实现 一 个 内 存 
共享 的 架构 ， 其 中 多 个 处 理 器 可 以 并 发 地 访问 同样 


的 内 存 。 我 们 称 之 为 并 行 信息 检索 系统 ， 将 在 10. 4 
节 详 细 讨 论 。 尽 管 最 近 并 行 信息 检索 系统 因为 开销 


复制 








查询 吞吐 量 
Q 














> 


考虑 并 未 被 采用 ， 但 是 讨论 它们 还 是 很 重要 的 ， 因 索引 大 小 
为 它们 体现 了 很 多 对 于 完整 理解 分 布 式 信息 检索 十 图 10-1 大 型 信息 检索 系统 中 的 可 扩展 
分 重要 的 概念 。 例 如 ， 集 群 中 的 服务 器 可 能 有 多 于 性 问题 ， 其 中 每 个 Cs 代表 一 个 
一 个 的 处 理 器 。 计算 机 集群 (改编 自 [1153]) 。 
每 个 集群 的 性 能 的 梯形 形状 接 
第 五 个 非常 独特 的 分 布 式 架构 是 由 对 等 网 络 toh tages 
(Peer-to-Peer Network, P2P) 提供 的 ， 其 中 大 量 自 资源 并 未 饱和 时 ， 查 询 吞 吐 量 
治 的 计算 机 分 布 在 各 地 。 每 一 个 计算 机 运行 相同 的 应 该 更 大 


通信 协议 ， 并 且 用 该 协议 实现 相似 的 能 力 和 任务 。 在 这 种 情况 下 ， 每 个 端点 (peer) 建立 它 
自己 的 索引 版 本 ， 并 能 解决 本 地 查询 。P2P 系统 比 客户 端 /服务 器 架构 要 动态 得 多 ， 它 允许 
计算 机 随意 加 入 或 者 离开 网 络 。 因 此 ，P2P 网 络 通常 比 联 合 搜索 系统 有 多 得 多 的 参与 结 点 
(计算 机 )， 我 们 将 在 10.7 节 详 细 讨 论 。 

本 章 的 接 下 来 部 分 安排 如 下 。10. 2 节 展 示 已 经 讨论 过 的 、 不 同类 型 的 并 行 和 分 布 式 信 
息 检索 系统 的 分 类 。10. 3 节 涉 及 如 何 划 分 文档 集 和 索引 。10.4 节 探 索 在 并 行 平台 上 实现 信 
息 检索 的 技术 。10. 5 节 讨 论 基于 集群 的 信息 检索 ， 这 是 现代 搜索 引擎 所 选择 的 架构 。10. 6 
节 的 注意 力 转 向 分 布 式 信 息 检索 ， 包 括 索 引 和 查询 处 理 。10. 7 节 将 讨论 联合 搜索 ，10. 8 节 
将 讨论 对 等 网 络 。 最 后 ， 讨 论 未 来 的 趋势 ， 然 后 以 文献 讨论 来 总 结 。 


10.2 分布 式 信息 检索 系统 的 分 类 


因为 并 行 和 分 布 式 信 息 检索 系统 可 以 用 许多 不 同 的 方式 组 织 ， 所 以 我 们 提出 一 种 宽泛 的 
分 类 方法 ， 它 足够 通用 ， 包 含 主要 的 系统 和 它们 的 变种 。 如 图 10-2 所 示 ， 它 基于 三 个 主要 
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的 特征 ， 我 们 用 它们 来 描绘 各 种 类 型 的 并 行 和 分 布 式 系统 。 








单 处 理 器 多 处 理 器 
相同 软件 相同 软件 不 同 软 件 




















内 部 通信 标准 搜索 并 行 搜索 
局 域 网 通信 n/a 基于 集群 的 搜索 本 地 联合 搜索 
互联 网 通信 na | “分 布 式 搜索 (MO | ”联合 搜索 PP | 








图 10-2 分 布 式 和 并 行 信息 检索 系统 的 分 类 ， 根据 处 理 器 个 数 、 
使 用 的 软件 个 数 和 通信 媒介 组 织 


。 处 理 器 个 数 一 一 如 果 只 有 一 个 处 理 器 ， 那 么 我 们 当然 只 有 一 台 机 器 。 这 种 情况 下 的 


通信 是 在 系统 内 部 ， 并 通过 处 理 器 -内 存 总 线 来 完成 。 如 果 使 用 多 个 处 理 器 ， 那 么 处 
理 器 可 能 是 单 台 并 行 机 的 一 部 分 ， 或 者 是 多 个 独立 机 器 的 一 部 分 。 在 第 一 种 情况 中 ， 
处 理 器 间 的 通信 是 通过 内 部 总 线 完成 。 在 第 二 种 情况 中 ， 处 理 器 间 的 通信 是 通过 局 
域 网 或 互联 网 来 完成 。 


。 相同 或 不 同 的 软件 一 一 这 里 的 问题 是 信息 检索 系统 中 的 服务 器 是 使 用 相同 的 软件 ， 


还 是 使 用 不 同 的 软件 。 在 并 行 和 基于 集群 的 机 器 的 情况 下 ， 相 同 的 软件 相对 容易 部 
署 。 当 服务 器 完全 不 同 ， 或 属于 不 同 的 组 织 机 构 时 ， 就 常常 会 出 现 不 同 软件 的 情况 。 
在 这 种 情况 下 ， 引 擎 常常 是 一 个 元 搜索 引擎 ， 它 收集 由 不 同 服务 器 产生 的 结果 ， 并 
把 它们 合并 到 单个 结果 列表 中 。 也 有 可 能 因为 有 历史 遗留 下 来 的 应 用 ， 同 样 的 组 织 
机 构 需 要 在 一 个 或 多 个 服务 器 上 运行 不 同 的 软件 。 


。 通信 媒介 一 一 这 里 的 问题 是 处 理 器 间 通 信 ， 为 此 ， 基 本 上 有 三 种 可 以 使 用 的 技术 : 


内 部 总 线 、 局 域 网 和 互联 网 。 在 内 部 总 线 的 情况 中 ， 通 信 协 议 是 轻 量 级 的 ， 有 效 的 
传输 速率 可 以 达到 每 秒 GB 级 或 更 多 。 在 局 域 网 的 情况 中 ， 使 用 了 一 个 重量 级 的 通 
信 协 议 ， 有 效 的 传输 速率 是 在 每 秒 MB 级 的 范围 。 在 更 大 的 互联 网 的 情况 中 ， 可 能 
需要 在 协议 层 加 上 额外 的 控制 ， 如 拥塞 控制 ， 有 效 的 传输 速率 通常 在 每 秒 KB 级 范 
围 。 尽 管 网 络 技术 在 不 断 地 革新 ， 这 些 范 围 很 有 可 能 会 变化 ， 但 是 我 们 应 该 认识 到 ， 
局 域 网 和 互联 网 的 协议 以 及 通信 时 延 将 继续 变 得 愈 发 严重 ， 这 将 导致 这 三 种 情况 的 
传输 速率 达到 一 个 数量 级 或 更 大 的 差别 。 


如 图 10-2 所 展示 的 分 类 区 分 了 七 种 类 型 的 分 布 式 和 并 行 系统 ， 包 括 : 
。 标准 搜索 





这 个 引擎 在 包含 一 个 处 理 器 的 单机 上 实现 。 这 是 最 简单 的 形式 ， 通 常 
被 学 生 和 研究 人 员 所 采用 ， 以 试验 新 的 排序 函数 、 新 的 索引 器 、 新 的 疏 虫 和 新 的 界 
面 。 它 的 主要 好 处 是 快速 部 署 以 及 低 维护 代价 。 对 于 生产 系统 ,这 个 形式 只 适用 于 
手头 的 文档 集 较 小 的 情况 。 


。 并 行 搜索 (SIMD) 一 一 这 个 引擎 在 由 多 个 处 理 器 组 成 的 并 行 机 上 实现 。 这 些 处 理 器 


可 能 有 它们 本 地 的 内 存 ， 但 较 常 见 的 是 它们 有 共享 的 内 存 〈 带 有 一 个 互 斥 总 线 控制 
机 制 来 避免 竟 争 条 件 )。 所 有 的 处 理 器 执行 同样 的 软件 ， 这 里 所 提 到 的 SIMD 表示 单 
指令 流 、 多 数据 流 〈single instruction stream, multiple data streams) ， 将 在 10. 4 
节 讨 论 。 


。 并 行 搜索 (MIMD) 一 一 这 个 引擎 在 由 多 个 处 理 器 组 成 的 并 行 机 上 实现 。 这 些 处 理 


器 都 有 本 地 内 存 ， 并 通过 一 个 十 分 快速 的 内 部 交换 结构 〈 传 输 速率 和 总 线 一 样 ) 来 
通信 。 处 理 器 可 能 执行 不 同 的 软件 ， 这 里 提 到 的 MIMD 代表 多 指令 流 、 多 数据 流 
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(multiple instruction streams, multiple data streams) ， 将 在 10.4 节 讨 论 。 

基于 集群 的 搜索 一 一 这 个 引擎 在 一 个 由 多 台 通 过 局 域 网 互联 的 机 器 所 组 成 的 集群 上 
实现 。 利 用 各 种 各 样 的 机 器 将 海量 文档 集 分 割 成 各 种 各 样 的 本 地 子 文档 集 ， 便 于 进 
行 并 发 搜索 。 这 是 今天 的 商业 搜索 引擎 更 青睐 的 形式 。 

本 地 联合 搜索 这 个 引擎 把 每 个 查询 发 送 到 运行 不 同 软件 的 多 个 独立 服务 器 上 。 
这 些 软件 可 以 很 不 一 样 ， 如 传统 的 布尔 搜索 系统 、 基 于 向 量 的 系统 和 现代 的 Web 搜 
索 系 统 。 不 同系 统 产生 的 结果 被 该 引擎 收集 ， 并 以 启发 式 的 方式 合并 ， 然 后 以 单个 
列表 的 形式 返回 给 用 户 。 本 地 联合 搜索 尽管 很 少 使 用 ， 但 还 是 会 在 一 些 大 型 组 织 中 
使 用 。 它 们 包含 许多 历史 遗留 的 系统 ， 而 没有 收集 和 维护 合作 信息 的 中 央 进 程 。 
分 布 式 搜索 一 一 这 个 引擎 在 分 布 在 互联 网 上 的 多 个 处 理 器 上 运行 ,但 都 使 用 相同 软 
件 。 这 对 通常 使 用 的 基于 集群 的 形式 来 说 是 个 有 趣 的 替代 方案 ， 它 最 近 已 经 吸引 了 
越 来 越 多 的 研究 活动 ， 我 们 下 面 会 进行 具体 讨论 。 

联合 搜索 -一 -通常 的 情况 是 元 搜索 引擎 把 每 个 查询 发 送 给 位 于 互联 网 中 不 同 地 方 的 
多 个 服务 器 上 ， 然 后 收集 结果 ， 启 发 式 地 合并 它们 ， 最 后 将 单个 结果 列表 展示 给 
用 户 。 





根据 中 央 化 和 控制 的 程度 ， 分 布 式 信息 检索 系统 也 可 以 按照 如 下 两 个 基本 的 网 络 协议 类 


型 来 区 分 : 


。 客户 端 /服务 器 : 网 络 中 的 机 器 有 两 个 基本 的 类 型 : 服务 器 ， 或 者 客户 端 。 服 务 器 是 


服务 的 提供 者 ， 客 户 端 是 消费 者 。 在 分 布 式 信 息 检 索 的 情况 中 ， 服 务 基 本 上 就 是 搜 
索 ， 客 户 端 机 器 产生 查询 《或 服务 请 求 )， 然 后 发 送 到 服务 器 。 服 务 器 处 理 这 些 查询 
《或 请 求 )， 生 成 答案 ， 并 把 它们 发 回 客户 端 来 结束 该 服务 。 使 用 客户 端 /服务 器 协议 
的 分 布 式 信息 检索 系统 有 三 种 基本 类 型 : 基于 集群 的 搜索 、 联 合 搜索 和 分 布 式 搜索 。 
在 联合 搜索 中 ， 网 络 上 的 服务 器 可 能 使 用 不 同 的 软件 ， 只 有 连接 服务 器 和 客户 端的 
协议 需要 标准 化 。 在 分 布 式 的 和 基于 集群 的 搜索 中 ， 所 有 的 服务 器 都 使 用 同样 的 软 
件 〈 在 并 行 搜索 中 也 如 此 )。 联 合 搜索 和 分 布 式 搜索 系统 在 互联 网 上 进行 操作 ， 而 基 
于 集群 的 搜索 系统 通过 局 域 网 更 紧密 地 连接 。 图 10-2 所 示 的 所 有 七 种 信息 检索 系统 
的 组 织 都 可 在 客户 端 /服务 器 的 模式 下 工作 。 而 且 ， 如 果 把 浏览 器 看 成 客户 端的 话 ， 
那么 所 有 的 Web 搜索 引擎 都 以 客户 端 /服务 器 模式 工作 。 

对 等 (P2P) ， 网 络 中 的 每 台 机 器 都 有 同等 的 能 力 和 责任 。 也 就 是 说 ， 每 台 机 器 都 能 
作为 客户 端 或 者 服务 器 运行 。 尽 管 不 同 的 机 器 可 能 使 用 不 同 的 软件 ， 但 它们 必须 通 
过 一 种 通用 的 P2P 协议 来 通信 。 因 为 这 个 原因 ， 最 常见 的 情况 是 所 有 的 端点 都 使 用 
相同 的 软件 。P2P 网 络 要 动态 得 多 ， 因 为 机 器 可 以 在 任何 时 候 加 和 或 者 离开 网 络 ， 
我 们 稍 后 会 对 其 讨论 。 图 10-2 的 系统 组 织 中 ， 有 两 种 类 型 可 以 在 P2P 模式 下 运行 : 
分 布 式 搜索 和 联合 搜索 〈 用 一 个 P2P 标签 来 标记 ) 。 


关于 中 央 化 的 水 平 ， 我 们 可 以 说 ， 在 分 布 式 搜索 系统 中 控制 是 完全 的 ， 在 联合 搜索 中 是 


部 分 的 ， 而 在 P2P 信息 检索 系统 中 根本 就 不 存在 中 央 控 制 。 
10.3 数据 划分 


因为 信息 检索 计算 任务 通常 可 以 刻画 成 “把 少量 的 处 理 过 程 〈 对 于 每 份 数据 ) 应 用 到 大 


量 的 数据 上 ”， 所 以 如 何 将 计算 划分 到 不 同 的 机 器 上 就 是 如 何 划 分 数据 的 问题 ， 如 怎样 划分 
文档 集 和 索引 。 我 们 这 里 讨论 的 数据 划分 技术 可 以 应 用 到 并 行 和 分 布 式 信息 检索 系统 。 
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图 10-3 以 一 个 高 层次 的 视角 展示 了 在 向 量 空间 模型 〈 见 3. 2. 6 节 ) 中 常用 的 搜索 算法 





处 理 数 据 的 过 程 。 每 一 行 表示 一 篇 文档 d; ， 每 一 列 RSG 
表示 一 个 索引 项 和。 这 里 ,，k 可 能 是 单个 词 ` 知 | & bh [404 
语 、 概 念 或 者 更 抽象 的 索引 项 ， 如 LSI 向 量 中 的 一 a | ww wa wa 
个 维度 或 者 文档 签名 中 的 一 位 。 矩 阵 中 的 元 素 ww， 档 | … 一 > 
是 项 -文档 权重 ， 详 见 3. 2. 3 节 。 与 某 个 特定 文档 相 | a n M o 
关 的 所 有 项 权重 组 成 一 个 带 权重 的 文档 向 量 亏 : Ay] Mw Maw Ws Way 
T = (wy we, 图 10-3 搜索 算法 处 理 的 基本 数据 元 素 

在 搜索 过 程 中 ， 查询 也 用 索引 项 的 权重 向 量 来 表示 ， 了 一 (Wigs ners Wg)» 而 搜索 算 

法 通过 应 用 匹配 函数 F, 7) 一 sim(d ，g) 来 给 每 篇 文档 打分 ， 第 3 章 讨论 了 许多 这 样 的 


算法 。 

对 于 划分 数据 ， 这 个 高 层次 的 数据 视角 揭示 了 两 个 可 能 的 数据 划分 方法 。 第 一 个 方法 是 
文档 划分 (document partition) ， 它 水 平地 切 分 数据 和 抢 阵 ， 将 文档 分 在 多 个 子 任 务 中 。 文 档 
集中 的 N 篇 文档 分 布 在 系统 中 的 P 个 处 理 器 上 ， 生 成 书 个 子 文档 集 ， 每 个 估计 有 N/P 篇 
文档 。 在 查询 过 程 中 ， 每 个 并 行 过 程 〈 每 个 处 理 器 一 个 ) 在 分 配给 它 的 N/P 篇 文档 的 子 文 
档 集 上 执行 该 查询 ; 最后， 来 自 每 个 子 文档 集 的 结果 被 合并 到 一 个 最 终 的 结果 列表 中 。 第 二 
个 方法 是 项 划分 (term partitioning), CHAM AAPA, RSD Bl 已 个 处 理 器 
上 ， 使 得 对 每 篇 文档 的 执行 过 程 都 传播 到 系统 中 的 多 个 处 理 器 上 。 现 在 我 们 考虑 将 这 两 个 划 
分 方案 用 于 主 索引 结构 。 


10.3.1 文档 集 划 分 


在 并 行 或 分 布 式 信息 检索 系统 中 ， 用 于 将 文档 分 配给 搜索 处 理 器 或 服务 器 的 过 程 依赖 于 
多 个 因素 。 首 先 ， 我 们 必须 考虑 系统 是 否 是 中 央 管 理 的 ， 如 在 并 行 信息 检索 系统 中 常常 是 这 
样 的 情况 。 在 这 种 情况 下 ， 生 成 划分 的 最 简单 方法 是 随机 选择 文档 ， 同 时 每 个 划分 大 概 都 包 
含 N/P 篇 文档 。 一 个 更 结构 化 的 方法 是 使 用 & 均值 聚 类 算法 来 根据 主题 对 文档 集 划 分 
[978，1041]， 见 8. 3. 1 节 。 其 他 可 能 的 划分 策略 包括 ， 根 据 语 言 或 者 其 他 内 在 的 数据 特征 
来 划分 ， 如 地 理 位 置 等 。 

在 由 独立 管理 的 异 质 搜索 服务 器 组 成 的 分 布 式 系统 中 ， 文 档 集 是 独立 建立 和 维护 的 。 在 [45 
这 种 情况 下 ， 没 有 中 央 节 点 来 控制 文档 的 划分 过 程 ， 于 是 怎样 划分 文档 的 问题 也 是 无 意义 
的 。 然 而 ， 有 可 能 每 个 独立 的 搜索 服务 器 都 关注 于 一 个 特定 的 主题 领域 ， 结 果 就 是 将 文档 按 
照 语义 划分 成 关注 于 特定 主题 领域 的 多 个 分 布 式 的 文档 集 。 这 种 情况 在 元 搜索 引擎 中 很 常 
见 ， 它 提供 对 各 种 各 样 的 后 端 搜索 服务 提供 者 的 集中 化 的 访问 。 另 一 个 可 能 是 ， 每 个 服务 器 
负责 一 种 不 同 的 语言 或 者 地 理 区 域 。 

如 果 是 中 央 化 管理 的 分 布 式 系统 ， 那 么 就 会 有 更 多 的 选择 。 第 一 个 选择 是 在 所 有 的 搜索 服 
务 器 上 简单 地 复制 整个 文档 集 。 当 文档 集 是 够 小 且 能 够 保存 在 单个 搜索 服务 器 上 ， 但 需要 很 高 
的 可 用 性 和 查询 吞吐 量 时 ， 这 是 合理 的 。 在 这 个 场景 中 ， 利 用 多 任务 来 实现 系统 中 的 并 行 化 
CLA 10-5)，、 而 代理 程序 的 任务 是 将 查询 分 配 到 搜索 服务 器 上 ， 并 平衡 在 服务 器 上 的 负载 。 

第 二 个 选择 是 文档 随机 分 布 。 当 出 于 性 能 原因 必须 把 一 个 大 型 文档 集 分 散 存储 时 ， 这 种 
选择 是 比较 合适 的 。 但 是 ， 这 些 文档 将 总 是 被 看 做 单个 逻辑 文档 集 的 一 部 分 进行 搜索 。 代 理 
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程序 把 每 个 查询 广播 到 所 有 服务 器 ， 然 后 组 合 所 有 的 结果 给 用 户 。 

最 后 一 个 选择 是 显 式 的 语义 文档 划分 。 这 里 ,文档 要 么 已 经 根据 技术 准则 等 组 织 成 语义 
上 有 意义 的 文档 集 ， 要 么 使 用 自动 的 诊 类 或 分 类 过 程 来 将 文档 划分 成 与 主题 相关 的 文档 集 。 
这 是 最 令 人 感 兴 趣 ， 也 是 最 复杂 的 情况 ， 我 们 下 面 会 展开 讨论 。 

有 一 些 论文 讨论 了 如 何 划 分 一 个 文档 集 ， 使 得 每 个 文档 集 都 能 很 好 地 和 其 他 文档 集 分 
开 。 在 这 个 语 境 下 ,“ 很 好 地 分 开 ” 的 意思 是 ， 在 这 种 划分 下 ， 每 个 查询 都 能 映射 到 某 个 包 
含 最 多 相关 文档 的 文档 集中 。 为 了 构建 这 样 一 种 映射 ， 可 以 使 用 查询 日 志 。Puppin 等 人 
[1304] 使 用 查询 日 志 ， 并 用 带 有 所 有 返回 文档 答案 的 查询 来 表示 文档 。 这 样 的 表示 能 够 用 
一 种 共聚 类 算法 来 建立 查询 聚 类 和 文档 聚 类 。 然 后 利用 共聚 类 的 结果 ， 基 于 文档 聚 类 来 划分 
文档 集 ， 并 基于 查询 聚 类 和 文档 聚 类 建立 文档 集 选 择 函 数 。 它 们 的 结果 显示 ,使 用 这 种 技 
术 ， 其 性 能 能 够 超过 目前 已 知 对 于 文本 数据 最 好 的 文档 集 选 择 函 数 CORIL320] CM 10. 3.2 
节 )。CORI 只 是 基于 在 文档 集中 的 信息 ， 而 Puppin 等 人 的 技术 的 优势 是 根据 从 用 户 使 用 模 
式 的 信息 构建 的 模型 进行 划分 ， 这 对 于 未 来 的 查询 可 能 也 是 有 效 的 。 另 一 个 有 意思 的 结果 
是 ， 查 询 日 志 不 仅 能 有 效 地 划分 文档 集 ， 而 且 可 以 识别 出 未 来 查询 不 可 能 检 出 的 某 个 文档 子 
集 。 在 这 篇 文章 中 ， 他 们 展示 了 对 于 一 个 特定 的 大 型 文档 集 ， 这 个 子 集 大 概 占 到 所 有 文档 
的 53%。 

然而 ， 设 计 一 个 文档 集 划 分 算法 ， 使 得 减少 执行 查询 时 涉及 的 服务 器 个 数 ， 以 及 平衡 总 
体 的 查询 负载 ， 仍 然 是 一 个 开放 的 问题 。 


10.3.2 文档 集 选 择 


在 许多 情况 下 ， 特 别 是 在 分 布 式 和 联合 搜索 中 A 10. 6 节 和 10.7 节 )， 文 档 集 是 预先 
决定 的 ， 无 法 改变 。 在 那 种 情况 下 ， 文 档 集 选择 也 称 为 源 选 择 或 查询 路 由 ， 是 决定 哪个 文档 
集 最 有 可 能 包含 与 当前 查询 相关 的 文档 ， 因 此 应 该 接收 查询 来 进行 处 理 的 过 程 。 一 个 方法 
是 ， 总 是 假设 每 个 文档 集 有 同等 的 可 能 性 包含 相关 的 文档 ， 故 简单 地 将 查询 广播 到 所 有 文档 
集 。 当 文档 是 随机 划分 的 ， 或 者 文档 集 之 间 有 很 强 的 语义 重生 时， 这 个 方法 是 合适 的 。 

当 文 档 集 被 划分 成 语义 上 有 意义 的 子 文档 集 ， 或 者 每 次 搜索 全 部 文档 集 的 代价 十 分 高 
时 ， 可 以 根据 文档 集 包含 相关 文档 的 可 能 性 对 文档 集 进 行 排序 。 基 本 的 技术 是 把 每 个 文档 集 
看 做 一 个 大 的 文档 ， 对 这 些 文档 集 建 立 索 引 ， 并 对 每 个 文档 集 执 行 查询 ， 生 成 一 个 排序 的 文 
档 集 列表 。 排 序 可 以 基于 3. 2. 6 节 讨 论 的 向 量 模 型 。 为 此 ， 我 们 需要 计算 文档 集 C 的 项 权 
重 ， 它 可 以 按照 如 下 过 程 完 成 。 令 wa 表示 文档 集 C; 中 的 项 的 权重 ， 那么， 

Wej 一 Fa x IDF.. 
其 中 fj ER: 在 所 有 文档 集 C; 中 的 总 出 现 频 率 ， 而 IDF.,; 是 反比 文档 集 频率 ， 即 
IDF. = log( X.) 


其 中 ，N. 是 文档 集 的 数目 ，z. 是 出 现 项 A, 的 文档 集 的 个 数 。 这 些 权 重用 于 生成 查询 和 文档 
集 向 量 ， 它 们 的 相似 度 用 向 量 模型 的 余弦 相似 度 公式 计算 ， 抑 3. 2. 6 节 。 

这 个 方法 的 一 个 问题 是 ， 尽 管 某 个 文档 集 可 能 得 到 一 个 较 高 的 查询 相关 度 分 数 ， 但 是 有 
可 能 在 该 文档 集中 没有 任何 单个 文档 有 较 高 的 查询 相关 度 分 数 〈 这 种 情况 叫做 误 检 (false 
drop)). Moffat 和 ZobelL1152] 提出 通过 以 一 系列 文档 块 的 形式 对 每 个 文档 集 建立 索引 ， 
每 个 块 包含 B 篇 文档 ， 来 避免 这 个 问题 。 当 B 等 于 1 时 ， 这 就 等 同 于 索引 所 有 文档 ， 将 之 
当做 单个 文档 集 。 当 B 等 于 在 每 个 文档 集中 的 文档 数目 时 ， 这 就 等 同 于 原来 的 解决 方法 。 
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通过 变化 B， 就 可 以 在 文档 集 的 索引 大 小 和 误 检 的 可 能 性 之 间 进 行 权衡 。 

Voorhees[1652] 提出 了 搜索 文档 集 索 引 的 另 一 个 选择 ， 它 同时 利用 训练 查询 来 对 分 布 
式 的 文档 集 建立 一 个 内 容 模型 。 当 一 个 新 的 查询 提交 到 系统 时 ， 计 算出 它 和 训练 查询 的 相似 
度 ， 然 后 内 容 模 型 就 用 于 决定 应 该 搜索 哪个 文档 集 ， 以 及 从 每 个 文档 集 应 该 返回 多 少 文 
档 数 。 

广义 GIOSS 系统 L666] 根据 文档 集中 包含 查询 项 的 文档 数目 和 某 个 项 在 所 有 文档 中 的 
总 权重 对 文档 集 排序 。 更 具体 地 说 ， 它 需要 两 个 向 量 来 估计 排序 ,项 在 每 个 文档 集中 的 文档 
频率 和 每 个 项 在 文档 集 的 所 有 文档 中 的 权重 总 和 。 基 于 这 些 信息 ， 作 者 提出 了 两 个 估计 算 子 
来 预测 文档 集中 与 查询 的 相似 度 大 于 阔 值 /的 文档 个 数 。Max(l1) 估计 算 子 假设 在 文档 库 中 
查询 项 以 最 高 程度 共 现 。 另 一 方面 ，Sum(!) 估计 算 子 假设 查询 项 在 任何 文档 中 都 不 一 起 出 
现 。 然 后 ， 相 似 度 就 用 标准 的 余 芯 函数 计算 。 

CORI 系统 [323] 将 文档 集 当 做 文档 来 排序 ， 使 用 Inquery(322] 推理 网 方法 来 检索 文 
档 〈 见 3.5.4 节 )。 为 了 对 文档 集 进 行 排序 ， 每 个 文档 集 用 它 的 索引 项 表示 ， 其 中 项 的 权重 
由 文档 频率 和 文档 集 频率 这 些 统计 数据 决定 。 查 询 获得 的 文档 集 通 过 它们 的 排名 分 数 进行 聚 
类 ， 并 选择 前 个 文档 集 。 

GIOSS 和 CORI 这 两 个 方法 在 选择 最 好 的 数据 源 来 回答 查询 时 ， 都 未 把 搜索 结果 的 质 
量 考虑 进去 。 因 此 ， 对 于 给 定 的 查询 ， 具 有 相似 的 查询 项 统计 数据 的 文档 集 有 同等 的 重要 
性 。 然 而 ， 因 为 它们 可 能 有 不 同 的 排序 函数 ， 所 以 结果 的 质量 也 可 能 是 不 一 样 的 ( 见 
7. 2.6 节 )。 

其 他 一 些 早期 的 方法 对 文档 集 的 词汇 表 进 行 索引 ， 根 据 文档 集中 的 项 频 和 项 的 文档 频率 
的 相似 度 分 数 将 文档 集 当 做 伪 文 档 来 排序 [1797]。Yuwono 和 LeeL1761j 的 工作 尝试 确定 
文档 集中 的 哪些 项 将 该 文档 集 与 其 他 文档 集 区 分 开 来 ， 并 给 更 具 判 别 能 力 的 项 更 高 的 权重 。 

D’Souza 等 人 [513] 调查 了 另 一 类 不 同 的 文档 集 选 择 方法 ， 它 们 使 用 代理 文档 而 非 只 
来 自 于 不 同文 档 集 的 索引 项 信息 。 他 们 描述 了 文档 排序 方法 ， 其 中 代理 文档 是 通过 文档 中 前 
n 个 或 者 最 好 的 ”个 索引 项 产生 。 这 使 得 能 够 使 用 文档 的 相似 度 分 数 来 对 文档 集 排序 。 

FuhrL600] 介绍 了 一 个 文档 集 选 择 的 决策 理论 框架 (Decision Theoretic Framework, 
DTF) ， 对 每 个 文档 集 ， 根 据 一 个 代价 函数 估计 最 优 的 检 出 文档 数 。 这 个 代价 函数 依赖 于 通 
信 代 价 和 获取 文档 的 代价 ， 无 论文 档 是 相关 的 还 是 不 相关 的 。Nottelmann 和 Fuhr 还 介绍 了 
Æ DTF 中 ,根据 检 出 文档 的 质量 估计 代价 的 方法 [1210]， 以 及 如 何 使 用 CORI 来 估计 在 文 
档 集中 相关 文档 的 个 数 [1211]. 

后 来 ，Si 等 人 [1475] 提出 了 一 个 用 于 文档 集 选择 的 语言 模型 框架 。GIOSS 系统 假设 
排序 分 数 在 文档 集 间 是 可 比较 的 ， 而 Si 等 人 提出 的 系统 假设 这 个 分 数 可 能 是 无 法 比较 的 。 
在 这 种 情况 下 ， 文 档 集 通过 查询 采样 来 描述 ， 其 中 的 查询 是 从 某 个 背景 分 布 采集 的 单个 项 。 
对 于 每 个 查询 ,根据 前 4 篇 文档 创建 语言 模型 。 他 们 发 现 ， 一 个 文档 集 只 用 300 篇 文档 就 足 
够 表示 了 。 文 档 集 像 用 语言 模型 方法 检索 文档 那样 进行 排序 ， 其 中 被 检索 的 “文档 ”是 文档 
集 的 形式 〈 见 3. 5.2 47). 

仍然 还 有 一 些 重要 的 悬而未决 的 问题 。 例 如 ， 文 档 集 选择 和 文档 集 划分 之 间 的 相互 依赖 
并 未 很 好 地 得 到 研究 。 特 别 地 ， 当 使 用 某 个 特定 的 划分 技术 时 ， 一 个 好 的 文档 集 选 择机 制 可 
能 会 产生 不 平衡 的 查询 负载 。 


10.3.3 ” 倒 排 索引 划分 
我 们 先 讨 论 使 用 文档 划分 进行 倒 排 索引 划分 的 方法 ， 然 后 我 们 讨论 项 划分 。 在 这 两 种 情 
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况 中 ， 我 们 都 描述 索引 和 基本 的 查询 处 理 步 又 。 

在 使 用 倒 排 索引 的 系统 中 有 两 个 文档 划分 的 方法 ， 即 逻辑 文档 划分 和 物理 文档 划分 。 第 
一 个 适合 于 具有 共享 内 存 的 并 行 系统 ; 而 后 者 是 分 布 式 系统 的 唯一 选择 。 

1. 逻辑 文档 划分 

在 这 种 情况 中 ， 数 据 划 分 在 逻辑 上 使 用 和 原 有 序列 算法 O 9.2.5 W 一 样 的 倒 排 索 
引 。 该 倒 排 索引 经 过 扩展 ， 使 得 每 个 并 行 的 进程 〈 一 个 处 理 器 一 个 进程 ) 能 够 直接 访问 与 处 
理 器 的 子 文档 集 相 关 的 那 部 分 索引 。 每 个 词汇 表 条 目 经 过 扩展 ， 包 含 指向 对 应 的 倒 排 索 引 的 
P 个 指针 ， 其 中 第 ; 个 指针 是 与 第 7 个 处 理 器 中 的 子 文 档 集 相 关 的 倒 排 索引 中 的 文档 块 的 索 
引 。 如 图 10-4 所 示 ， 其 中 项 i 的 词汇 表 条 目 包 含 四 个 指向 项 i 的 倒 排列 表 的 指针 ， 每 个 并 行 
进程 一 个 指针 《P= 二 4)。 

当 查 询 提 交 到 系统 时 ， 代 理 程序 ( 见 图 10-6) 先 保证 必需 的 词汇 表 和 倒 排 索 引 条 目 装 人 
共享 内 存 ， 其 中 所 有 的 并 行进 程 能 够 访问 这 个 共享 的 副本 。 然 后 ， 代 理 程序 初始 化 已 个 并 
行进 程 来 执行 查询 。 每 个 进程 使 用 扩展 的 词汇 表 来 访问 倒 排 索引 中 的 适当 条 目 ， 在 它 的 子 文 
档 集 上 执行 相同 的 文档 打分 算法 。 因 为 在 查询 处 理 过 程 中 所 有 的 索引 操作 都 是 只 读 的 ， 所 以 
在 访问 共享 词汇 表 和 倒 排 索引 的 进程 间 没 有 锁 竞 争 的 问题 。 搜 索 进程 在 一 个 共享 的 文档 分 数 
累加 器 数组 中 记录 文档 的 分 数 ， 并 在 结束 时 通知 代理 程序 。 对 累加 器 的 更 新 也 没有 锁 冲 突 的 
问题 ， 因 为 不 同 搜索 进程 进行 打分 的 子 文档 集 是 互 斥 的 。 在 每 个 搜索 进程 结束 后 ， 代 理 程序 
对 文档 分 数 累加 器 数组 进行 排序 ， 并 产生 最 后 的 排序 文档 列表 。 

在 构建 倒 排 索引 时 ， 对 逻辑 划分 的 文档 进行 索引 的 进程 可 以 使 用 Brownf282] 描述 的 一 
种 索引 方案 〈 见 9. 2. 5 节 》， 以 利用 并 行 处 理 器 。 首 先 ， 索 引 器 将 文档 在 处 理 器 间 划 分 。 其 
次 ， 它 分 配 文 档 标 识 符 ， 使 得 在 划分 i 中 的 所 有 标识 符 都 小 于 在 划分 i 十 1 中 的 所 有 标识 符 。 
然后 ， 索 引 器 以 并 行 的 方式 在 每 个 处 理 器 上 运行 are 倒 排列 表 
独立 的 索引 进程 。 每 个 索引 进程 都 生成 一 批 按照 
索引 项 排序 的 倒 排 索引 。 在 所 有 索引 都 产生 后 ， 
执行 合并 步骤 来 产生 最 后 的 倒 排 索引 。 因 为 每 个 
倒 排 索引 都 以 同样 的 方式 排序 ， 所 以 使 用 一 个 基 
于 二 义 堆 的 优先 队列 来 合并 对 应 于 当前 索引 项 的 
所 有 部 分 倒 排 索 引 。 这 些 部 分 索引 按照 划分 编号 
的 顺序 连接 起 来 ， 产 生 最 后 的 倒 排 列表 ; 然后 生 
成 索引 项 对 应 的 词汇 表 条 目 ， 它 包含 额外 的 索引 
指针 ， 如 图 10-4 所 示 。 

2. 物理 文档 划分 10-4 ”用 于 文档 划分 的 扩展 词汇 表 条 日 

在 文档 划分 的 第 二 种 方法 中 ， 文档 被 物理 地 划分 成 分 离 的 、 自 包含 的 子 文档 集 ， 每 个 并 
行 处 理 器 或 分 布 式 服务 器 有 一 个 子 文档 集 。 每 个 子 文档 集 有 自己 的 倒 排 索引 ， 在 执行 查询 时 
搜索 进程 间 并 不 共享 任何 东西 。 当 查询 提交 到 系统 中 时 ， 代 理 程序 将 查询 分 发 给 所 有 的 并 行 
搜索 进程 。 每 个 并 行 的 搜索 进程 在 自己 的 部 分 文档 集 上 进行 查询 ， 产 生 一 个 本 地 的 、 中 间 命 
中 列表 。 然 后 代理 程序 从 所 有 并 行 的 搜索 进程 收集 中 间 命 中 列表 ， 把 它们 合并 成 一 个 最 终 的 
命中 列表 。 

使 用 一 个 基于 二 又 堆 的 优先 队列 [425j， 可 以 将 已 个 中 间 命 中 列表 高 效 地 合并 起 来 。z 
个 元 素 的 优先 队列 有 这 样 一 个 性 质 ， 元 素 i 大 于 元 素 2i 和 2i 十 1， 其 中 i 的 范围 是 1~n。 优 
先 队列 并 不 是 完全 排序 的 ， 但 是 最 大 的 元 素 总 是 能 马上 得 到 〈 即 在 O(1) 时 间 内 )， 并 能 在 
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O(logn) 时 间 内 抽取 出 来 。 把 一 个 元 素 插 入 到 优先 队列 中 同样 可 以 在 O(logn) 时 间 内 完成 。 
为 了 合并 中 间 命 中 列表 ， 和 需要 创建 一 个 一 个 元 素 的 优先 队列 ， 即 把 来 自 每 个 中 间 命 中 列表 
的 第 一 个 条 目 都 插入 到 队列 中 ， 所 需 的 创建 时 间 是 OC PlogP). 

为 了 生成 由 排名 前 上 位 (top&) 的 文档 组 成 的 最 终 (全 局 ) 命中 列表 ， 从 优先 队列 中 抽 
取 上 个 元 素 。 每 次 在 从 优先 队列 中 抽取 一 个 元 素 之 后 ， 都 从 该 元 素 所 在 的 中 间 命 中 列表 中 取 
出 一 个 新 元 素 插 入 到 优先 队列 中 。P 个 中 间 命 中 列表 可 以 在 O((P 十 k)logP〉 时间 内 被 合并 
成 一 个 个 元 素 的 最 终 命 中 列表 。 

上 面 描述 的 合并 步骤 假设 并 行 搜 索 进 程 产生 的 文档 分 数 是 全 局 一 致 的 ， 可 以 直接 合并 。 
根据 所 使 用 的 排序 算法 ， 每 个 并 行 搜索 进程 可 能 需要 全 局 的 索引 项 统计 数据 ， 以 便 产生 全 局 
一 致 的 文档 分 数 。 有 两 个 基本 的 方法 来 收集 全 局 的 索引 项 统计 信息 。 第 一 个 方法 是 在 索引 时 
计算 全 局 的 项 统计 数据 ， 并 将 这 些 数据 和 每 个 子 文档 集 一 起 保存 。 第 二 个 方法 是 每 个 查询 处 
理 分 两 个 步骤 进行 。 在 第 一 步 中 ， 代 理 程序 从 每 个 搜索 进程 中 收集 子 文档 集 的 索引 项 统计 数 
据 ， 然 后 把 它们 合并 成 全 局 的 项 统计 数据 。 在 第 二 步 中 ， 代 理 程 序 将 查询 和 全 局 项 统计 数据 
分 发 给 搜索 进程 ， 查 询 执行 过 程 则 和 之 前 一 样 。 第 一 个 方法 提供 了 更 好 的 查询 处 理性 能 ， 代 
价 是 更 加 复杂 的 索引 ; 而 第 二 个 方法 能 够 独立 地 建立 和 维护 子 文档 集 ， 代 价 是 在 执行 查询 过 
程 中 有 双 倍 的 通信 代价 。 

为 了 构建 用 于 物理 划分 的 文档 集 倒 排 索引 ， 每 个 处 理 器 或 服务 器 并 行 地 创建 和 子 文档 集 
对 应 的 完整 索引 。 如 果 全 局 文档 集 统计 数据 保存 在 单独 的 词汇 表 中 ， 那 么 必须 执行 一 个 合并 
操作 来 从 所 有 划分 中 累加 得 到 全 局 统计 数据 ， 并 分 发 到 每 个 划分 的 词汇 表 中 。 

在 复制 文档 集 的 情况 下 ， 有 两 种 方法 来 处 理 索 引文 档 。 在 第 一 种 方法 中 ， 每 个 搜索 服务 
器 单独 地 索引 文档 的 副本 。 在 第 二 种 方法 中 ， 对 每 个 服务 器 分 配 一 个 互 斥 的 子 文档 集 来 进行 
索引 ， 这 些 索 引子 集 被 复制 到 所 有 搜索 服务 器 上 。 在 每 个 搜索 服务 器 上 需要 对 这 些 子 集 进行 
合并 来 创建 最 终 的 索引 〈 可 以 使 用 我 们 之 前 提 和 到 的 方法 ) 。 在 任何 一 种 方法 中 ， 文 档 更 新 和 
删除 都 必须 广播 到 所 有 的 服务 器 上 。 文 档 加 入 可 以 立即 广播 到 系统 中 ， 或 者 根据 加 入 的 频率 
以 及 系统 所 必须 体现 的 更 新 速度 ,对 它们 进行 批 处 理 和 划分 。 

3. 比较 

逻辑 文档 划分 比 具 有 相似 并 行 性 的 物理 文档 划分 需要 更 少 的 通信 ， 所 以 它 有 可 能 提供 更 
好 的 总 体 性 能 。 另 一 方面 ， 物 理 文档 划分 提供 更 多 的 灵活 性 如 可 以 单独 搜索 文档 划分 )。 
并 且 ， 如 果 要 将 已 有 的 信息 检索 系统 转换 成 并 行 系统 的 话 ， 使 用 物理 文档 划分 更 加 简单 ， 而 
对 于 分 布 式 信息 检索 系统 ， 这 是 唯一 可 行 的 方案 。 无 论 对 于 哪 种 文档 划分 方案 ， 线 程 为 创建 
搜索 进程 、 控 制 它们 的 操作 和 它们 之 间 的 通信 提供 了 一 个 方便 的 编程 模式 。 线 程 在 一 些 现代 
的 编程 语言 (如 JavaL991]) 中 是 原生 支持 的 ， 在 其 他 一 些 语言 中 也 是 以 标准 的 方式 很 好 地 
支持 (如 在 C 或 C 十 十 中 的 POSIX 线程 ;。 线 程 包 使 得 编程 人 员 能 够 使 用 高 层次 抽象 化 的 并 
发 执行 、 通 信和 和 同步 来 开发 并 行程 序 。 然 后 编译 器 和 运行 时 系统 将 这 些 抽象 化 映射 到 高 效 的 
操作 系统 服务 和 共享 内 存 操作 上 。 

4. 项 划分 

当 在 基于 倒 排 索引 的 系统 中 使 用 项 划分 时 ， 对 文档 集 生 成 单个 倒 排 索 引 (使 用 上 面 描述 
的 用 于 逻辑 文档 划分 的 并 行 构 建 技术 ) ， 然 后 将 倒 排 索引 划分 到 多 个 处 理 器 上 。 在 执行 查询 
过 程 中 ， 查 询 被 分 解 成 索引 项 ， 并 且 每 个 索引 项 被 分 发 到 包含 对 应 倒 排 索 引 的 处 理 器 上 。 这 
些 处 理 器 创建 带 有 部 分 文档 分 数 的 命中 列表 ， 并 将 它们 返回 给 代理 程序 。 然 后 代理 程序 根据 
查询 的 语义 将 命中 列表 合并 起 来 。 对 于 布尔 查询 ， 对 命中 列表 进行 适当 的 合并 、 求 交集 或 求 


410 


[411] 


302 。 第 10 章 并 行 与 分 布 式 信息 检索 


差 集 的 操作 。 对 于 排序 的 自由 文本 查询 ， 包 含 项 分 数 的 命中 列表 必须 根据 排序 公式 的 语义 来 
合并 。 

另 一 方面 ， 项 划分 允许 并 行 地 处 理 查询 ， 因 为 每 个 处 理 器 能 够 回答 不 同 的 部 分 查询 。 然 
而 ， 查 询 负载 并 不 一 定 是 均衡 的 [85]， 于 是 并 发 的 部 分 好 处 就 丢失 了 。 因 此 ， 主 要 的 任务 
是 划分 索引 ， 使 得 : 

"e 相互 联系 的 处 理 器 或 服务 器 的 数目 最 小 。 

。 负载 平均 地 分 布 到 所 有 可 用 的 处 理 器 或 服务 器 上 。 

5. 总 体 比较 

相 比 之 下 ， 文 档 划 分 能 提供 比 项 划分 更 加 简单 的 倒 排 索引 构建 和 维护 。Jeong 和 Omiec- 
inski[833] 指出 ， 它 们 在 查询 过 程 中 相对 的 性 能 依赖 于 项 的 分 布 。 假 设 每 个 处 理 器 有 它 自己 
的 1/O 通道 和 硬盘 ， 当 项 在 文档 和 查询 中 的 分 布 非常 不 均衡 时 ， 文 档 划 分 的 性 能 更 好 。 当 
项 在 用 户 查 询 中 均匀 分 布 时 (这 个 条 件 和 自然 文本 更 近似 )， 项 划分 的 性 能 更 好 。 例 如 ， 使 
FA TREC 数据 ，Ribeiro-Neto 和 Barbosal145, 1349] 指出 ， 对 于 长 查询 ， 项 划分 可 能 要 快 
两 倍 ， 对 十 分 短 的 查询 (如 Web) 要 快 5~10 倍 。 然 而 ， 其 他 作者 已 经 发 现 了 相反 的 结果 。 

事实 上 ，Webber 等 人 [1673] 说 明了 项 划分 能 够 导致 更 低 的 资源 使 用 率 。 更 具体 来 
说 ， 它 极 大 地 减少 了 硬盘 访问 次 数 和 数据 交换 量 。 尽 管 文档 划分 仍然 在 吞吐 量 方便 表现 得 更 
好 ， 但 他 们 显示 ， 项 划分 有 可 能 取得 更 高 的 值 。 

最 近 ，Martin 等 人 [255, 1087, 1088, 1089, 1090] 提出 了 一 个 新 的 架构 ， 它 结合 了 
异步 操作 、 同 步 操作 以 及 一 个 时 间 片 轮转 技术 来 处 理 查询 。 这 个 技术 能 够 以 相同 的 方式 应 用 
到 文档 和 项 划分 ， 因 而 可 以 说 这 个 技术 提供 了 一 个 公平 的 比较 环境 。 在 这 种 情况 下 ， 项 划分 
表现 得 更 好 。 

虽然 文档 划分 方法 保证 了 负载 均衡 ， 每 个 查询 的 代价 被 平等 地 分 配 出 去 ， 但 文档 划分 系 
统 主要 的 缺点 就 是 ， 执 行 了 很 多 不 需要 的 操作 来 查询 那些 可 能 只 包含 很 少 〈 甚 至 没有 ) 相关 
文档 的 子 文档 集 。 

项 划分 的 主要 缺点 是 必须 建立 和 维护 整个 全 局 索引 ， 这 限制 了 它 的 可 扩展 性 。 因 此 ， 它 
在 实际 的 大 规模 搜索 引擎 中 并 不 实用 《〈 见 第 11 章 )。 此 外 ， 项 划分 的 响应 时 间 有 更 大 的 变 
数 ， 要 解决 这 个 问题 需要 更 加 复杂 的 平衡 机 制 。 

然而 ， 如 果 以 某 种 混合 的 方案 和 文档 划分 结合 起 来 ， 那 么 项 划分 在 分 布 式 信息 检 索 系 统 
中 仍然 可 能 是 有 用 的 。 因 为 这 个 原因 ， 对 这 种 系统 来 说 ， 有 一 种 好 的 划分 方法 仍然 是 需 
要 的 。 


10. 3.4 划分 其 他 索引 


1. 后 缀 数组 

我 们 可 以 直接 将 文档 划分 应 用 到 后 缀 数组 中 。 正 如 对 于 倒 排 案 引 的 物理 文档 划分 ， 文档 
集 被 划分 到 P 个 处 理 器 ， 每 个 划分 被 当做 独立 、 自 包含 的 文档 集 。 然 后 这 个 系统 可 以 将 
9.4.4 节 描 述 的 后 缀 数组 构建 技术 应 用 到 每 个 划分 上 ,改进 之 处 在 于 所 有 的 划分 可 以 并 发 地 
进行 索引 。 在 搜索 过 程 中 ， 代 理 程序 将 查询 广播 给 所 有 的 搜索 进程 ， 收 集中 间 结 果 ， 然 后 将 
中 间 结 果 合 并 到 一 个 最 终 的 命中 列表 。 

如 果 所 有 的 文档 都 保存 在 同一 个 文档 集中 ， 那 么 我 们 仍然 可 以 利用 并 行 处 理 器 来 减少 索 
引 时 间 。 大 文本 的 后 缀 数组 构建 算法 ( 见 9.4.4 节 ) 的 一 个 有 趣 的 性 质 是 所 有 对 部 分 索引 的 
合并 过 程 都 是 独立 的 。 因 此 ， 所 有 的 OC(Cn/M)*〉 次 合并 操作 都 可 以 在 单独 的 处 理 器 上 并 行 
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地 运行 。 在 所 有 的 合并 完成 后 ， 对 每 个 部 分 索引 的 计数 必须 收集 起 来 ， 并 执行 最 后 的 索引 
合并 。 

后 缀 数组 的 项 划分 是 把 单个 后 缀 数组 分 发 到 多 个 处 理 器 上 ， 这 样 每 个 处 理 器 负责 数组 的 
某 个 字 上 典 序 区 间 。 在 查询 处 理 过 程 中 ， 代 理 程序 将 查询 分 发 给 包含 后 级 数组 相关 部 分 的 处 理 
占 ， 并 合并 结果 。 注 意 ， 当 搜索 后 缀 数组 时 ， 所 有 的 处 理 器 都 需要 访问 整个 文本 。 在 拥有 共 
享 内 存 的 单个 并 行 计算 机 “如 SMP 系统 ) 上 ， 这 不 是 问题 ， 因 为 文本 可 以 缓存 在 共享 内 存 
中 。 然 而 ， 如 果 共 享 内 存 并 不 可 用 ， 并 且 通 信 代 价 很 高 ， 如 分 布 式 系统 〈 工 作 站 网 络 等 )， 
那么 这 也 可 能 是 个 问题 。 

2. 签名 文件 

为 了 在 使 用 签名 文件 的 系统 中 实现 文档 划分 ， 文 档 像 之 前 一 样 被 划分 到 多 个 处 理 器 上 ， 
每 个 处 理 器 对 它 的 文档 划分 生成 签名 。 在 查询 时 ， 代 理 程序 为 查询 生成 签名 ， 然 后 把 它 分 发 
到 所 有 并 行 的 进程 中 。 每 个 进程 在 本 地 执行 查询 签名 ， 好 像 它 的 文档 划分 是 单独 、 自 包含 的 
文档 集 。 然 后 结果 被 发 送 到 代理 程序 ， 代 理 程序 再 把 它们 合并 到 一 个 最 终 的 命中 列表 给 用 
户 。 对 于 布尔 查询 ， 最 后 的 结果 只 是 每 个 处 理 器 返回 结果 的 并 集 。 对 于 排序 的 查询 ， 按 照 上 
面 所 说 的 用 于 倒 排 索引 的 实现 方法 对 排序 的 命中 列表 进行 合并 。 

为 了 在 基于 签名 文件 的 系统 中 应 用 项 划分 技术 ， 不 得 不 使 用 按 位 切 分 的 签名 文件 
[1239j， 并 将 位 切片 划分 给 处 理 器 。 然 而 ， 合 并 来 自 每 个 处 理 器 的 中 间 结 果 并 消除 误 检 ， 所 
需要 进行 的 串 行 操作 工作 量 严 重 限制 了 这 种 组 织 方式 所 提供 的 加 速 比 S。 于 是 ， 这 种 组 织 方 
式 并 不 受 推荐 。 


10.4 ”并行 信息 检索 


10.4.1 介绍 


我 们 可 以 从 两 个 方向 开发 并 行 信息 检索 算法 。 一 个 可 能 的 方案 是 开发 新 的 检索 策略 ， 直 
接 实现 并 行 。 例 如 ， 文 本 搜索 过 程 可 以 建立 在 神经 网 络 上 。 神 经 网 络 〈 见 3. 4. 3 节 ) 根据 人 
脑 建 模 ， 用 大 量 的 结 点 〈 神 经 元 ) 来 解决 问题 ， 每 个 结 点 有 一 些 输入 、 一 个 阔 值 和 一 个 输 
出 。 一 个 结 点 的 输出 与 一 个 或 多 个 其 他 结 点 的 输入 相连 接 ， 并 在 这 个 网 络 的 边界 上 定义 好 系 
统 最 初 的 输入 和 最 终 的 输出 。 一 个 结 点 的 输出 值 由 结 点 的 输入 和 立 值 的 权重 函数 决定 。 通 过 
训练 过 程 来 学 习 网 络 中 权重 和 阅 值 的 合理 值 。 计 算 的 过 程 是 ， 把 输入 值 应 用 到 网 络 中 ， 计 算 
每 个 活跃 结 点 的 输出 值 ， 并 调整 网 络 中 的 这 些 权重 与 益 值 ， 直 到 得 到 最 后 的 输出 值 。 神 经 网 
络 天 然 地 能 够 在 SIMD 硬件 上 并 行 实现 (SIMD 的 定义 见 下 文 )。 这 个 方法 的 挑战 是 如 何以 
这 样 的 方式 定义 检索 任务 ， 即 如 何 很 好 地 映射 到 计算 范式 。 

另 一 个 可 能 的 方案 是 将 已 有 的 、 研 究 较 多 的 信息 检索 算法 调整 成 并 行 过 程 。 这 是 我 们 在 
本 章 接 下 来 的 部 分 所 要 考虑 的 方法 。 将 已 有 算法 调整 成 并 行 实现 所 需 的 修改 依赖 于 目标 并 行 
平台 。 我 们 将 研究 把 某 些 检索 算法 应 用 到 MIMD 和 SIMD 架构 〈 它 们 的 定义 见 下 文 ) 的 技 
术 。 因 为 并 行 信息 检索 仍然 是 一 个 十 分 活跃 的 研究 领域 ， 只 有 很 少 技术 已 经 脱颖而出 成 为 标 
准 技术 。 因 此 ， 我 们 只 是 展现 一 些 已 经 完成 的 工作 ， 而 不 是 比较 它们 的 优 劣 。- 

1. 并 行 计 算 

并 行 计 算 能 并 发 地 应 用 多 个 处 理 器 解决 单个 问题 ， 其 中 每 个 处 理 器 用 来 解决 问题 的 某 个 
部 分 。 有 了 并 行 计 算 ， 解 决 问题 所 需 的 总 时 间 就 可 以 减少 到 最 长 运行 部 分 所 需 的 时 间 。 只 要 
问题 可 以 进一步 分 解 成 更 多 能 够 并 发 运行 的 部 分 ， 就 可 以 加 入 更 多 的 处 理 器 到 系统 中 ， 减 少 
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解决 问题 所 需 的 时 间 ， 并 可 以 扩展 到 更 大 的 问题 上 去 。 


处 理 器 可 以 按 各 种 方式 组 合 来 形成 分 布 式 架构 。Flynn[570] 基于 架构 中 指令 和 数据 流 
的 数量 定义 了 常用 的 并 行 架构 分 类 体系 。 这 个 分 类 体系 包括 四 类 : 

。 SISD: 单 指令 流 ， 单 数据 流 。 

。 SIMD: 单 指令 流 ， 多 数据 流 。 

。 MISD: 多 指令 流 ， 单 数据 流 。 

。 MIMD: 多 指令 流 ， 多 数据 流 。 

SISD 类 包括 运行 串 行程 序 的 传统 的 冯 。 诺 依 曼 [300] 计算 机 ， 如 单 处 理 器 的 个 人 计算 
机 。SIMD 计算 机 由 在 NN 个 数据 流 上 操作 的 N 个 处 理 器 组 成 ， 其 中 每 个 处 理 器 同时 执行 相 
同 的 指令 。 这 类 机 器 通常 是 大 规模 并 行 计算 机 ， 它 们 包含 了 许多 相对 简单 的 处 理 器 、 处 理 器 
之 间 的 通信 网 络 ， 以 及 一 个 管理 处 理 器 同步 操作 的 控制 单元 。 处 理 器 可 能 会 使 用 共享 内 存 ， 
每 个 处 理 器 也 可 能 有 它 自 己 的 本 地 内 存 。 串 行程 序 需要 进行 很 大 的 修改 来 充分 利用 SIMD 架 
构 ， 而 且 并 不 是 所 有 问题 都 能 变 成 SIMD 实现 。 因 为 这 些 原因 ， 在 20 世纪 90 年 代 流 行 的 
SIMD 架构 (40 Thinking Machine 公司 的 CM-2) 不 再 继续 了 了。 如今， 这 些 架 构 仍 然 在 数字 
信号 处 理 器 和 视频 游戏 中 出 现 。 

MISD 计算 机 使 用 N 个 处 理 器 在 共享 内 存 中 操作 单个 数据 流 。 每 个 处 理 器 执行 它 自己 
的 指令 流 ， 这 样 多 个 操作 就 在 相同 的 数据 项 中 同步 执行 。MISD 架构 相对 较 少 ， 脉 动 (sys- 
tolic) 阵列 是 最 有 名 的 例子 。 

MIMD 是 最 通用 、 最 流行 的 一 类 并 行 架 构 。MIMD 计算 机 包含 N 个 处 理 器 、N 个 指令 
流 和 NN 个 数据 流 。 处 理 器 类 似 于 在 SISD 计算 机 上 使 用 的 处 理 器 ; 每 个 处 理 器 有 它 自己 的 控 
制 单元 、 处 理 单元 和 本 地 内 存 9S 。MIMD 系统 通常 包含 共享 内 存 ， 或 者 将 处 理 器 互 连 的 通信 
网 络 。 处 理 器 可 以 在 单独 或 不 相关 的 任务 上 工作 ， 或 者 它们 可 以 合作 解决 单个 任务 ， 这 提供 
了 很 大 的 灵活 性 。 处 理 器 交互 程度 很 高 的 MIMD AEA HR “RAS” (tightly coupled) 系 
统 ， 而 处 理 器 交互 程度 较 低 的 叫做 “ 松 耦 合 ” (loosely coupled) 系统 。MIMD 系统 的 例子 
包括 多 进程 PC 服务 器 、 对 称 多 处 理 器 (Symmetric Multiprocessor, SMP) 和 可 扩展 并 行 
处 理 器 。 今 天， 在 速度 排名 前 10 的 计算 机 (2009 年 11 A) 中 9 ， 我 们 找到 了 IBM, Cray, 
SGI 和 Sun 等 公司 制造 的 计算 机 ， 也 有 一 台 是 中 国 国防 科技 大 学 制造 的 。 

RE MMD 常常 表示 一 个 使 用 两 个 或 更 多 相同 处 理 器 的 自治 的 并 行 计 算 机 ， 但 
MIMD 也 有 分 布 式 计算 distributed computing) 架构 的 特点 。 在 分 布 式 计 算 中 ， 由 局 域 网 
或 广域网 连接 的 多 个 计算 机 合作 解决 单个 任务 。 尽 管 在 分 布 式 计算 环境 中 处 理 器 之 间 的 
耦合 十 分 松散 ， 但 是 MIMD 架构 的 基本 组 件 还 是 保留 的 。 每 个 计算 机 包含 一 个 处 理 器 、 
控制 单元 和 本 地 内 存 ， 并 且 局 域 网 或 广域网 提供 了 处 理 器 之 间 的 通信 和 网络 。 接 下 来 将 进 
行 详细 介绍 。 

2. 性 能 指标 

当 我 们 使 用 并 行 计算 时 ， 我 们 通常 想 要 知道 ,与 运行 在 单 处 理 器 上 的 串 行 程序 相 比 ， 我 
们 得 到 了 什么 程度 的 性 能 提高 。 有 一 些 可 用 的 指标 来 衡量 并 行 算法 的 性 能 。 一 个 这 样 的 指标 
是 ， 解 决 同样 的 问题 ， 相 对 于 最 好 的 串 行 算 法 ， 并 行 算法 所 能 得 到 的 加 速 比 〈speedup)， 定 
义 如 下 : . 


O E MIMD 系统 中 使 用 的 处 理 器 可 能 和 在 SISD 系统 中 使 用 的 处 理 器 一 样 ， 它 们 也 可 能 提供 额外 的 功能 ， 如 与 共 
享 内 存 相 关 的 硬件 缓存 。 
© http://www. top500. org/。 
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s 可 用 的 最 佳音 行 算法 的 运行 时 间 
并 行 算法 的 运行 时 间 
在 理想 的 情况 下 ， 当 在 N 个 处 理 器 上 运行 一 个 并 行 算法 时 ， 我 们 可 能 会 得 到 完美 的 加 
速 比 ， 即 5 一 N。 在 实践 中 ， 完 美的 加 速 比 是 无 法 取得 的 ， 因 为 要 么 问题 不 能 被 分 成 N 个 相 
同 的 子 任务 ， 要么 并 行 算法 会 有 控制 开销 (如 调度 或 同步 )， 要么 问题 包含 一 个 固有 的 串 行 
组 件 。Amdahl 法 则 [4] 表明 ， 对 于 一 个 给 定 的 问题 所 能 取得 的 最 大 加 速 比 与 有关 ，/ 即 
间 题 中 必须 串 行 计算 的 部 分 。 这 个 关系 由 下 面 的 式 子 给 出 ， 


(10-1) 








1 1 
S< FFA- p/N SF 
另 一 个 并 行 算法 性 能 的 指标 是 效率 (efficiency), Bp 


= 5 - 
o=5 (10-2) 


其 中 S 是 加 速 比 ，N 是 处 理 器 的 个 数 。 当 B= 二 1， 即 没有 任何 处 理 器 有 过 空闲 或 者 执行 了 不 
必要 的 操作 时 ， 就 达到 了 理想 的 效率 。 和 完美 的 加 速 比 一 样 ， 理 想 的 效率 在 实践 中 也 是 无 法 
取得 的 。 

最 终 ， 并 行程 序 相对 于 串 行程 序 的 性 能 提高 将 体现 在 完成 处 理 任 务 所 需 的 时 间 减 少 上 ， 
同时 也 要 考虑 与 运行 并 行程 序 所 需 的 并 行 硬件 相关 的 额外 金钱 支出 。 这 就 最 好 地 刻画 了 并 行 
程序 的 性 能 和 代价 的 总 体 情况 。 


10. 4.2 在 MIMD 架构 上 的 并 行 信息 检索 


MIMD 架构 在 如 何 定义 和 利用 并 行 来 解决 问题 方面 提供 了 很 大 的 灵活 性 。 信 息 检索 系 
统 利用 MIMD 计算 机 的 一 个 最 简单 的 方式 是 使 用 多 任务 (multitasking)。 并 行 计算 机 中 的 
每 个 处 理 器 都 运行 一 个 独立 的 搜索 服务 。 这 些 搜索 服务 并 不 合作 处 理 单 个 查询 ， 但 是 它们 可 
能 会 共享 代码 库 和 文件 系统 缓存 的 或 载 人 共享 内 存 的 数据 。 将 用 户 查 询 提交 到 搜索 服务 是 由 
代理 程序 管理 的 。 如 图 10-5 所 示 ， 它 从 终端 用 户 接受 搜索 请 求 ， 然 后 将 请 求 分 发 给 可 用 的 
搜索 服务 。 随 着 更 多 的 处 理 器 加 入 到 系统 中 ， 会 运行 更 多 的 搜索 服务 ， 那 么 就 可 以 并 行 地 处 
理 更 多 的 搜索 请 求 ， 从 而 提高 了 系统 的 吞吐 量 。 然 而 ， 需 要 注意 的 是 ， 单 个 查询 的 响应 时 间 


仍然 是 不 变 的 。 


一 










搜索 引擎 


图 10-5 在 MIMD 机 器 上 的 多 任务 并 行 
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尽管 这 个 方法 很 简洁 ， 但 是 必须 注意 合理 地 平衡 系统 上 的 硬件 资源 。 特 别 地 ， 随 着 处 理 
器 数 目的 增加 ， 硬 盘 和 1/O 通道 的 数量 也 必须 增加 。 除 非 内 存 能 容纳 整个 检索 索引 ， 否 则 
运行 在 不 同 处 理 器 上 的 搜索 进程 将 执行 /O 操作 ， 竞 争 硬盘 访 问 。 硬盘 瓶颈 对 性 能 来 说 将 
是 灾难 性 的 ， 可 能 会 抵消 增加 更 多 的 处 理 器 所 期 望 得 到 的 吞吐 量 收益 。 

除了 给 计算 机 增加 更 多 的 硬盘 外 ， 系 统管 理 员 必须 合理 地 将 索引 数据 分 布 到 所 有 的 硬盘 
上 。 只 要 两 个 搜索 进程 需要 访问 保存 在 相同 硬盘 上 的 索引 数据 ， 那 么 硬盘 竞争 的 问题 就 还 将 
存在 。 一 个 极端 情况 是 ， 将 整个 索引 复制 到 每 个 硬盘 ， 这 将 消除 硬盘 竞争 的 问题 ， 但 代价 是 
提高 了 存储 空间 需求 和 更 新 的 复杂 度 。 或 者 ， 系 统管 理 员 可 以 根据 配置 信息 划分 并 复制 索引 
数据 到 硬盘 上 ; 复制 频繁 访问 的 数据 ， 而 比较 少 访问 的 数据 被 随机 地 分 布 。 另 一 个 方法 是 建 
立 一 个 磁盘 阵列 ， 即 RAIDL365]j， 并 让 操作 系统 处 理 索引 划分 问题 。 通 过 将 文件 分 散 到 许 
多 磁盘 上 ， 磁 盘 阵 列 可 以 提供 低 延 迟 和 高 吞吐 量 的 硬盘 访问 。 

为 了 超过 多 任务 的 并 发 能 力 ， 并 改善 查询 的 响应 时 间 ， 执 行 单 个 查询 所 需 的 计算 必 
须 分 割 成 多 个 子 任 务 ， 并 且 分 布 到 多 个 处 理 器 上 ， 如 图 10-6 所 示 。 在 这 种 情况 下 ， 代 
理 程 序 和 搜索 进程 像 之 前 一 样 并 行 地 运行 在 单独 的 处 理 器 上 ， 但 是 现在 它们 合作 执行 
同样 的 查询 。 在 这 个 系统 中 ， 高 层 的 处 理 是 如 下 进行 的 : 代理 程序 从 终端 用 户 接受 一 
个 查询 ， 将 它 分 发 到 所 有 的 查询 进程 。 然 后 每 个 查询 进程 执行 该 查询 的 一 部 分 ， 并 将 
中 间 结 果 传 回 给 代理 程序 。 最 后 ， 代 理 程 序 将 中 间 结 果 合 并 成 一 个 最 终 的 结果 展示 给 
终端 用 户 。 





子 查询 /结果 





图 10-6 在 MIMD 机 器 上 并 行 处 理 的 划分 


10.4.3 在 SIMD 架构 上 的 并 行 信息 检索 


SIMD 架构 只 适用 于 比 MIMD 架构 更 受 限 的 问题 领域 。 为 此 ，SIMD 计算 机 相 比 于 
MIMD 计算 机 来 说 并 不 常用 ， 我 们 主要 是 因为 历史 原因 才 包 含 了 这 一 节 。 

或 许 SIMD 架构 最 有 名 的 例子 就 是 Thinking Machine 公司 的 Connection Machine 2 
CCM-2)， 它 在 20 世纪 90 年 代 就 不 再 继续 使 用 了 。 。CM-2 可 用 于 支持 签名 文件 和 基于 倒 排 
索引 的 信息 检索 算法 。 在 CM-2 中 的 每 个 处 理 单元 有 一 个 位 的 算术 有 还 辑 单元 (Arithmetric 
Logic Unit, ALU) 和 少量 的 本 地 内 存 。 这 些 处 理 单元 执行 本 地 或 者 非 本 地 的 并 行 指令 。 一 


© 在 Thinking Machine 公司 于 1994 年 申请 破产 前 最 新 的 模型 是 CM-5， 它 使 用 的 是 MIMD 架构 。 


第 10 章 并 行 与 分 布 式 信息 检索 。 307 


条 本 地 并 行 指 令 使 得 每 个 处 理 单元 在 保存 于 本 地 内 存 中 的 数据 上 执行 一 致 的 操作 。 一 条 非 本 
地 并 行 指 令 涉 及 处 理 单元 之 间 的 通信 ， 并 包含 对 向 量 的 所 有 元 素 求 和 或 者 找 出 全 局 最 大 值 这 
样 的 操作 。 

CM-2 用 一 个 单独 的 前 端 主 机 来 为 后 端 并 行 处 理 单元 提供 界面 。 前 端 控制 后 端 数 据 的 载 
入 和 和 印 载 ， 并 执行 串 行 程序 指令 ， 如 条 件 和 和 壕 代 语句 。 并 行 宏 指令 从 前 端 发 送 到 后 端的 微 控 
制 器 ， 它 控制 在 后 端 处 理 单元 上 同时 执行 指令 。 

CM-2 提供 了 在 后 端 处 理 器 上 的 一 个 抽象 层 ， 叫 做 虚 处 理 器 (virtual processor), — 
或 多 个 虚 处理 器 映射 到 单个 物理 处 理 器 。 程 序 的 处 理 需 求 用 虚 处 理 器 表达 ， 然 后 硬件 将 虚 处 
理 器 操作 映射 到 物理 处 理 器 上 。 一 个 物理 处 理 器 必须 串 行 地 执行 每 个 虚 处 理 器 的 所 有 操作 。 
虚 处 理 器 和 物理 处 理 器 的 比值 叫做 虚 处 理 比 (virtual processing ratio，VP) 。 随 着 VP 的 增 
加 ， 在 运行 时 间 上 会 出 现 近 似 线性 的 增加 。 

倒 排 索引 

倒 排 索 引 在 SIMD 机 器 上 较 难 实现 。 然 而 ，Stanfill 等 人 [1531, 1528] 已 经 提出 了 两 
种 适用 于 CM-2 的 倒 排 索引 。 回 想 9. 2 节 中 所 介绍 的 倒 排 列表 结构 。 在 最 简单 的 形式 中 ， 一 
个 倒 排 索引 为 每 个 索引 项 及 其 出 现 的 文档 建立 一 个 记录 。 记 录 是 形式 为 (&;，d;)〉 的 元 组 ， 
HP k 是 某 个 索引 项 的 标识 符 ，d; 是 文档 的 标识 符 。 依 赖 于 检索 模型 ， 记 录 可 能 额外 包含 
权重 或 位 置信 息 。 如 果 保 存 了 位 置信 息 ， 那 么 就 可 以 为 & Ed; 中 的 每 次 出 现 生成 一 
记录 。 

第 一 个 面向 CM-2 的 并 行 倒 排 索引 实现 了 使 用 两 个 数据 结构 来 保存 倒 排 索引 : RRM 
索引 。 记 录 表 包含 来 自 记 录 的 文档 标识 符 ， 而 索引 将 项 映射 到 它们 在 记录 表 中 对 应 的 条 目 。 
在 装 入 这 些 结构 前 记录 按照 索引 项 标识 符 排序 。 然 后 ， 按 照 这 个 排 好 的 顺序 将 文档 标识 符 装 
载 进 记 录 表 ， 填 人 一 系列 长 度 为 P HTF, XEK P 是 正在 使 用 的 处 理 器 的 个 数 。 这 个 记 
录 表 被 当做 一 个 并 行 数组 ， 其 中 数组 下 标 选择 某 个 特定 的 行 ， 然 后 每 行 被 分 配 到 P 个 处 理 
器 上 。 对 于 每 个 项 ， 索 引 保存 与 这 个 项 相关 的 文档 标识 符 在 记录 表 中 的 第 一 个 和 最 后 一 个 条 
目 。 图 10-7 展示 了 一 个 小 的 文档 集 、 原 始 记 录 ， 以 及 生成 的 记录 表 和 索引 。 例 如 ， 为 了 找 
到 包含 项 “piggy” 的 文档 ， 我 们 在 索引 中 查找 “piggy”， 然 后 知道 从 行 1 位 置 3 到 行 2 位 置 
1 的 记录 表 条 目 包 含 了 对 应 的 文档 标识 符 ， 即 0、1、2。 

在 搜索 时 ， 这 些 数据 结构 按 如 下 过 程 用 于 对 文档 排序 。 首 先 ， 检 索 系 统 将 记录 表 装 载 
到 后 端 处 理 器 。 然 后 ， 系 统 对 查询 项 进行 迭代。 对 于 每 个 查询 项 ， 每 次 查找 索引 ， 返 回 
必须 处 理 的 记录 表 条 目的 范围 。 然 后 搜索 系统 对 包含 在 此 范围 内 的 行进 行 选 代 。 对 每 一 
行 ， 包 含 当 前 项 的 记录 表 条 目的 处 理 器 被 激活 ， 与 之 相关 的 文档 标识 符 被 用 来 更 新 对 应 
文档 的 分 数 。 

文档 的 分 数 是 在 累加 器 〈Stanfill 称 之 为 信箱 ) 中 建立 的 ， 它 和 记录 表 类 似 ， 分配 在 一 
个 并 行 数组 中 。 为 了 对 特定 的 文档 更 新 累加 器 ， 我 们 必须 决定 累加 器 所 在 的 行 和 行内 的 位 
置 。 为 了 方便 起 见 ， 我 们 假设 这 个 信息 〈 而 不 是 文档 标识 符 ) 保存 在 记录 表 中 。 而 且 ， 我 们 
假设 权重 已 经 和 每 个 记录 联系 起 来 ， 并 保存 在 记录 表 中 。 对 带 权重 的 项 打分 的 完整 算法 
见 图 10-8, 

score_term 算法 假设 在 索引 中 查找 查询 项 的 过 程 已 经 完成 ， 并 且 结 果 保 存在 term 变量 
中 。 这 个 算法 对 与 查询 项 相关 的 每 行 记 录 进 行 选 代 ， 并 决定 在 当前 行 中 处 理 哪 些 位 置 。 
Position 是 个 并 行 整数 常量 ， 其 中 第 一 个 实例 是 0， 第 二 个 实例 是 1…… 最 后 一 个 实例 是 
N_PROCS-1。 根 据 当 前 行 中 感 兴趣 的 位 置 ， 在 where 子 句 中 激活 合适 的 处 理 器 。 在 算法 的 结尾 
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文档 
| This little piggy | This little piggy | This little piggy 
went to market. stayed home. had roast beef. 
记录 列表 

beef 2 

had 2 

home 

little 0 

little 1 0 

little 2 0 1 0 1 

market 0 0 2 0 2 
_ piggy 0 0 3 1 1 

piggy l 1 2 1 2 

piggy 2 1 3 2 1 

roast 2 2 2 2 2 

stayed l 2 3 2 3 

this 0 3 0 3 2 

this 1 3 3 3 3 

this 2 4 0 4 0 

to 0 

went 0 


图 10-7 并 行 倒 排 索引 





score_term(P_float Doc_score[], P_posting Posting[], 
term_t term) 

{ 

(1) int i, first_pos, last_pos; 

(2) P_int Doc_row, Doc_pos; 

(3) P_float Weight; 


(4) for (i = term.first_row; i <= term.last_row; i++) { 

(5) first_pos = (i == term.first_row ? term.first_pos : 0); 
(6) last_pos = (i == term.last_row ? 

(7) term.last_pos : N_PROCS - 1); 

8) where (Position >= first_pos && Position <= last_pos) { 








(9) Doc_row = Posting[i] .row; 
(10) Doc_pos = Posting[i] . pos; 
(11) Weight = term.weight * Posting[i] .weight; 
(12) ([Doc_pos]Doc_score[Doc_row] += Weight; 
(13) } 
(14) } 
} 
420 图 10-8 子 程 序 score_term 


部 分 ， 对 Doc_score 的 左 索引 提供 了 能 够 访问 并 行 变量 的 特定 实例 。 这 个 操作 十 分 重要 ， 因 
为 它 涉 及 处 理 器 之 间 的 通信 。 记 录 的 权重 必须 从 包含 记录 的 处 理 器 转移 到 包含 对 应 文档 的 累 
加 器 的 处 理 器 上 。 当 系统 已 经 用 score_term 算法 处 理 了 所 有 查询 项 后 ， 它 根据 文档 的 分 数 对 
它们 排序 ， 并 返回 前 & 篇 文档 。 

把 记录 的 权重 发 送 给 不 同 处 理 器 上 的 累加 器 的 代价 是 比较 高 的 。 为 了 解决 这 个 问题 ，Stanfill 
[1528] 提出 了 分 区 记录 文件 《partitioned postings file)， 通 过 将 给 定 文档 的 记录 和 累加 器 保存 在 相 
同 的 处 理 器 上 ， 消 除了 之 前 算法 所 需 的 通信 代价 。 有 两 个 技巧 来 完成 这 个 任务 。 首 先 ， 当 把 记录 
装载 到 记录 表 中 时 ， 不 是 在 行 中 从 左 向 右 工 作 ， 并 在 开始 下 一 行 前 填 满 前 一 行 ， 而 是 把 记录 添加 
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到 对 关联 文档 进行 打分 的 处 理 器 所 对 应 的 列 。 这 保证 了 所 有 与 一 篇 文档 关联 的 记录 将 和 文档 累加 
器 一 起 装 人 到 相同 的 处 理 器 。 图 10-9a 展示 了 图 10-7 的 记录 如 何 能 被 装 进 一 个 包括 两 个 处 理 器 的 
记录 表 中 ， 其 中 文档 0 和 文档 1 分 配给 处 理 器 0， 文档 2 分 配给 处 理 器 1。 

图 10-9a 也 展示 了 这 个 方案 的 一 个 问题 。 项 “this” 的 记录 是 偏 斜 的 ， 未 贯穿 连续 的 行 。 
为 了 处 理 这 个 情况 ， 我 们 应 用 分 区 记录 文件 的 第 二 个 技巧 ， 就 是 对 记录 分 段 ， 使 得 在 分 区 i 
中 的 每 个 索引 项 在 字典 顺序 上 小 于 或 等 于 分 区 i 十 1 上 的 每 个 项 。 如 图 10-9b 中 使 用 的 由 三 
行 组 成 的 分 区 。 注 意 可 能 需要 对 一 些 分 区 用 空白 进行 填充 ， 使 之 满足 分 区 的 约束 。 

记录 表 和 索引 在 变 成 图 10-10 所 示 的 最 终 形式 前 还 需要 经 过 一 些 更 改 。 首 先 ， 记 录 列 中 的 索 
引 项 标识 符 由 项 标签 蔡 代 。 系 统 将 标签 分 配给 项 ， 使 得 在 同一 个 分 区 中 没有 任何 两 个 项 有 相同 的 
标签 。 其 次 ， 在 记录 中 的 文档 标识 符 由 文档 行 号 蔡 代 ， 其 中 行 号 表示 哪 一 行 包含 了 文档 的 累加 
器 。 因 为 累加 器 和 记录 在 同样 的 位 置 〈 如 处 理 器 )， 行 号 已 经 足够 来 确定 文档 。 最 后 ， 修 改 索 引 ， 
以 记录 开始 分 区 、 结 束 分 区 和 每 个 项 的 标签 。 修 改 的 项 打分 算法 如 图 10-11 所 示 。 







































































h I| beef 2 gal 记录 表 
home 1 | beef 2 ome ee 一 最 后 a 一 一 
litle | had 2| | litte 0lhad 2 项 ee 一 个 分 区 | 标签 3 l 0 0 
little 1 | little 2 | | little 1 | litte 2 beef 0 0 0 3 1/3 0 
market 0 | piggy 2| | market 0| piggy 2 had 0 0 1 
piggy O| roast 2| | piggy 0| roast 2 home 0 0 2 o ols 9 
piggy 1|ths 2| |piggy 1 2 little 0 0 3 0 
stayed 1 stayed Í| this 2 market 1 1 0 1 l 
this 0 this 0 piggy 1 1 1 0 1|1 0 
this 1 this 1 roast 1 1 2 1 0 
to 0 to 0 stayed 2 2 0 1 1 
went 0 | went oj this 2 2 1 0 0 
to 3 3 0 1 0 
a) b) went 3 3 1 
图 10-9 偏 斜 、 分 区 的 记录 图 10-10 分 区 记录 文件 





ppf_score_term (P_float Doc_score[] P_posting Posting[], 
term_t term) 


{ 

(1) int i; 

(2) P_int Doc_row; 
(3) P_float Weight; 


(4) for (i = term.first_part * N_ROWS; 

i < (term.last_part + 1) + N_ROWS; i++) { 
(6) where (Posting[i].tag == term.tag) { 
(7) Doc_row = Posting[i] .row; 





(8) Weight = term.weight * Posting[i].weight; 
(9) Doc_score[Dec_row] += Weight; 

(10) 

(11) } 

} 








图 10-11 子 程 序 ppf_score_term 


这 里 N_ROWS 是 每 个 分 区 的 行 数 。 这 个 算法 遍历 分 区 记录 文件 中 项 所 在 的 全 部 分 区 的 
所 有 行 ， 然 后 激活 匹配 的 记录 所 在 的 处 理 器 。 每 个 活路 的 处 理 器 从 记录 中 抽取 文档 行 ， 计 算 
项 权重 ， 并 更 新 文档 的 分 数 。 在 所 有 的 查询 项 都 处 理 过 后 ， 系 统 对 文档 排序 ， 并 返回 前 篇 
文档 。Stanfill[1528」 显示 ， 分 区 记录 列表 文件 会 产生 大 约 原文 本 1/3 的 空间 开销 《其 中 
10%% 一 20%% 是 浪费 在 分 区 填充 上 )， 同 时 在 TB 级 别 的 文本 上 使 用 一 个 64K 处 理 器 的 CM-2， 
即 能 够 支持 快速 的 查询 响应 。 
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10.5 基于 集群 的 信息 检索 
集群 计算 介 于 并 行 计算 和 分 布 式 计算 之 间 。 服 务 器 集群 是 一 个 由 很 多 在 物理 上 接近 的 计 
算 机 组 成 的 分 布 式 系统 ， 并 且 通 常 通过 一 个 快速 的 局 域 网 连接 。 每 个 集群 是 在 图 10-1 中 所 
展示 的 可 扩展 的 通用 架构 的 基本 元 素 。 随 着 局 域 网 变 得 越 来 越 快 ， 集 群 表现 得 越 来 越 像 并 行 
计算 机 ， 虽 然 服 务 器 之 间 的 连接 要 比 并 行 机 器 中 的 多 处 理 器 总 线 速度 要 慢 。 
与 单 台 计算 机 相 比 ， 集 群 通常 用 来 提高 性 能 或 可 用 性 ， 它 通常 比 单个 有 同等 速度 或 可 用 
性 的 计算 机 有 更 好 的 成 本 效益 。 集 群 计 算 的 一 个 重要 的 问题 是 平衡 服务 器 间 的 负载 。 为 此 ， 
可 以 部 署 特殊 的 节点 ， 叫 做 负载 均衡 器 Coad balancer)， 它 负责 平衡 不 同 机 器 之 间 的 负载 ， 
提高 集群 系统 的 性 能 。 如 果 在 同样 的 硬件 上 运行 ， 最 忙 的 服务 器 的 容量 将 限制 整个 系统 的 容 
量 。 如 果 服 务 器 运行 在 不 同 的 硬件 上 ， 那 么 负载 均衡 需要 使 每 个 服务 器 上 的 负载 与 其 硬件 的 
速度 成 比例 ， 这 依赖 于 系统 的 拓扑 结构 ， 这 也 许 会 是 一 个 更 难 的 问题 。 
如 今 存在 着 许多 不 同类 型 的 集群 。 例 如 ， 以 高 可 用 性 为 目标 的 集群 有 元 余 节点 来 消除 因 
为 单个 计算 机 故障 所 造成 的 问题 。 通 过 拥有 一 些 能 实时 替换 故障 节点 的 备用 节点 ， 能 够 以 较 
低 的 代价 提高 可 用 性 。 其 他 集群 主要 用 于 计算 目的 ， 如 下 面 的 这 两 种 情况 : 
。 贝 奥 武 夫 集 群 (Beowulf Clusters) 是 一 个 由 相同 节点 组 成 、 运 行 在 专用 网 络 上 的 集 
群 。 当 计算 模型 需要 频繁 通信 时 ， 需 要 这 类 集群 。 
。 在 网 格 计算 (grid computing) 中 ， 网 格 负责 将 任务 分 配给 计算 机 ， 每 个 计算 机 独立 于 
集群 中 的 其 他 机 器 执行 任务 。 昌 然 硬 盘 等 一 些 资源 可 能 被 所 有 节点 共用 ， 但 一 个 任务 
的 中 间 结 果 不 应 该 影响 在 网 格 中 其 他 节点 上 运行 的 其 他 任务 。 网 格 计算 最 适用 的 场景 
是 ， 工 作 由 许多 独立 的 任务 组 成 ， 它 们 不 需要 在 计算 过 程 中 共享 数据 。 也 就 是 说 ， 与 
Beowulf 集群 相反 ， 网 格 计算 最 常用 在 很 少 或 者 没有 内 部 节点 通信 的 情况 中 。 
我 们 在 并 行 信 息 检索 中 提 到 的 指标 同样 可 以 应 用 到 基于 集群 的 计算 。 与 效率 等 同 的 叫做 
负载 均衡 Coad balancing)。 也 就 是 说 ， 我 们 希望 所 有 的 机 器 都 做 几乎 相同 量 的 工作 。 有 很 
多 方法 来 衡量 负载 均衡 。 例 如 ， 我 们 可 以 计算 与 平均 负载 ! 相 比 最 大 的 偏差 比例 : 


LB = max( e4 — H) (10-3) 
na 1 


其 中 /= X load;/n。 注 意 1B 的 范围 可 以 是 从 0《〈 完 美的 平衡 ) 到 n—1 〈 完 全 不 平衡 ， 所 


有 的 负载 都 由 一 台 机 器 处 理 了 )。 我 们 可 以 将 其 用 1 一 LB/(n 一 1) 将 其 逆转 并 归 一 化 。 
负载 均衡 可 以 通过 组 合 多 种 技术 来 实现 。 最 简单 的 方法 是 使 用 
衡器 ， 监 管 这 个 任务 。 然 而 ， 在 有 些 情 况 中 却 无 法 实现 ， 需 要 一 些 特定 的 负载 均衡 算法 。 
为 了 对 集群 编程 ， 有 一 些 中 间 件 软件 ， 如 消息 传递 接口 (Message Passing Interface, 
MPD 或 并 行 虚 拟 机 (Parallel Virtual Machine，PVM) ， 它 使 得 程序 能 够 移植 到 很 多 集群 
上 。 另 一 个 可 能 的 方案 是 由 Dean 等 人 [485] 引入 的 map-reduce 并 行 计算 范式 ， 它 在 
Hadoop 软 件 包 [691] 中 作为 开源 软件 发 布 。 
集群 计算 可 以 用 于 很 多 用 途 。 我 们 这 里 主要 的 兴趣 是 利用 它 来 运行 信息 检索 系统 ， 特 别 





”是 ， 利 用 它 来 运行 搜索 引擎 。 更 加 重要 的 是 ， 因 为 集群 计算 是 如 今 ARLE REA. 为 


此 ， 我 们 将 在 Web 检索 的 环境 下 更 加 详细 地 介绍 基于 集群 的 信息 检索 ， 见 11. 4. 2 节 。 
10.6 分 布 式 信息 检索 


10.6.1 介绍 
分 布 式 系统 通常 由 一 系列 服务 器 进程 组 成 ， 每 个 进程 在 一 个 单独 的 处 理 节 点 上 运行 ， 一 
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个 指定 的 代理 进程 负责 接受 客户 端 请 求 ， 将 请 求 分 发 到 服务 器 ， 从 服务 器 收集 中 间 结 果 ， 并 
将 中 间 结 果 合 并 成 最 终 的 结果 给 客户 端 。 这 个 计算 模型 十 分 类 似 于 图 10-6 所 展示 的 MIMD 
并 行 处 理 模 型 。 这 里 主要 的 区 别 是 子 任务 运行 在 不 同 的 计算 机 上 ， 并 且 子 任务 之 间 的 通信 是 
通过 某 个 网 络 协议 实现 ， 如 TCP/IP[408] 〈 而 不 是 基于 共享 内 存 的 进程 间 通 信 机 制 )。 另 一 
个 重要 的 区 别 是 ， 在 分 布 式 系统 中 ， 经 常 选 择 分 布 式 服 务 器 的 一 个 子 集 来 处 理 某 个 特定 请 
求 ， 而 不 是 将 每 个 请 求 都 广播 到 系统 中 的 每 个 服务 器 上 。 

1. 分 布 式 计 算 

分 布 式 计算 是 通过 联网 的 多 台独 立 的 计算 机 处 理 单 个 问题 的 应 用 ， 这 些 计算 机 使 用 消息 
机 制 来 互相 通信 。 分 布 式 计算 系统 可 以 看 成 是 一 个 MIMD 并 行 处 理 器 ， 它 有 着 相对 较 慢 的 
进程 间 通 信和 通道 ， 并 且 能 在 系统 中 自由 地 部 署 不 同类 别 的 处 理 器 。 实 际 上 ， 分 布 式 系统 中 的 
单个 处 理 节 点 可 以 是 一 个 并 行 计 算 机 ， 这 由 它 自 己 决定 。 而 且 ， 如 果 它 们 都 支持 相同 的 公共 
界面 和 调用 服务 的 协议 ， 那 么 系统 中 的 计算 机 可 以 属于 不 同 的 参与 者 ， 并 由 不 同 的 参与 者 
操作 。 

MIMD 并 行 计算 机 和 分 布 式 计算 环境 之 间 主 要 的 区 别 是 处 理 器 间 通 信 的 代价 ， 这 在 分 
布 式 计算 环境 中 要 高 得 多 。 为 此 ， 分 布 式 程序 通常 是 粗 粒 度 的 ， 而 单个 并 行 计 算 机 上 的 程序 
往往 是 细 粒 度 的 。 颗 粒度 指 的 是 ， 相 对 于 通信 量 ， 程 序 所 执行 的 计算 量 。 粗 粒度 程序 ， 相 对 
于 通信 和 量 ， 执 行 较 大 规模 的 计算 ;而 细 粒 度 的 程序 ， 相 对 于 计算 量 ， 执 行 较 大 规模 的 通信 。 
当然 ， 在 解决 问题 的 不 同时 段 ， 一 个 应 用 可 能 会 使 用 不 同 级 别 的 颗粒 度 。 

另 一 个 重要 的 区 别 是 ， 在 基本 的 并 行 计算 中 ， 内 存 是 共享 的 ， 而 在 分 布 式 计算 中 ， 每 个 
处 理 器 有 它 自己 的 本 地 内 存 。 另 一 方面 ， 分 布 式 系 统 在 实际 中 也 是 个 并 行 系统 。 特 别 地 ， 因 
为 在 服务 器 中 只 有 少量 通信 ， 我 们 可 以 将 10. 5 节 提 到 的 网 格 计算 的 想法 扩展 成 在 不 同 地 理 
区 域 、 通 过 互联 网 相连 的 不 同类 型 的 计算 机 。 

在 分 布 式 系 统 中 ， 对 可 扩展 性 十 分 重要 的 元 素 有 四 个 : 划分 、 通 信 、 可 靠 性 和 外 部 因 
素 。 划 分 处 理 数 据 的 可 扩展 性 ， 在 大 型 信息 检索 系统 中 ， 它 表示 划分 文档 集 和 索引 ， 见 
10. 3 节 。 通 信 应 对 处 理 的 可 扩展 性 ， 在 我 们 的 情况 中 是 查询 处 理 。 如 果 一 个 系统 的 操作 不 
会 失败 ， 那 么 它 是 可 靠 的 。 因 而 可靠 性 用 于 评价 系统 的 性 能 以 及 它 所 提供 服务 的 可 信任 
性 。 它 包括 可 用 性 (availability， 正 确 服 务 准 备 就 绪 )、 可 依赖 性 (reliability， 正 确 服 务 的 
JERE). KEH 〈safety， 不 会 对 用 户 和 环境 造成 灾难 结果 ) 和 保险 性 (security, IR 
证 只 对 授权 的 用 户 可 用 、 机 密 性 和 完整 性 )。 外 部 因素 是 系统 的 外 部 限制 。 在 分 布 式 检 索 系 
统 中 ， 有 很 多 外 部 因素 ， 从 网 络 限制 到 系统 开发 人 员 的 质量 [1153]. 

在 这 样 的 情况 下 ，10. 5 节 定 义 的 负载 均衡 概念 同样 是 重要 的 。 

2. 目标 和 关键 问题 

有 些 应 用 可 以 很 好 地 转变 成 分 布 式 实现 ， 它 们 通常 涉及 可 以 分 割 成 粗 粒度 操作 的 计算 和 
数据 ， 而 这 些 操作 之 间 有 相对 较 少 的 通信 。 基 于 文档 划分 的 并 行 信息 检索 很 符合 这 个 特点 。 
在 10.4.2 节 , 我 们 了 解 了 怎样 用 文档 划分 来 将 搜索 任务 分 成 多 个 自治 的 子 任务 ， 每 个 子 任 
务 进行 大 量 的 计算 和 数据 处 理 ， 但 其 间 只 有 少量 通信 。 而 且 ， 或 者 出 于 管理 的 目的 ， 或 者 是 
为 了 将 相关 的 文档 合并 到 单一 来 源 ， 文 档 几 乎 总 是 会 被 组 合成 文档 集 。 因 此 ， 文 档 集 为 将 数 
据 分 布 到 多 个 服务 器 ， 为 划分 计算 提供 了 天 然 的 颗粒 度 。 

信息 检索 系统 最 终 的 目标 是 能 够 在 大 的 文档 集中 快速 、 准 确 地 回答 查询 。 根 据 L99], 
这 包含 了 三 个 不 同 的 目标 ， 我 们 接 下 来 对 此 加 以 详细 阐述 。 第 一 ,信息 检索 系统 需要 应 对 内 
容 增长 和 变化 、 用 户 数 的 增加 以 及 搜索 模式 〈 用 户 模型 ) 的 多 样 性 。 为 此 ， 系 统 必须 是 可 扩 
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展 的 。 可 扩展 性 是 指 ， 随 着 加 和 更 多 的 资源 ， 系 统 处 理 越 来 越 多 的 工作 量 的 能 力 。 第 二 ， 系 
统 必 须 提供 较 高 的 容量 ， 这 里 的 容量 是 指 ， 在 任何 给 定 的 时 间 、 给 定 的 响应 时 间 和 吞吐 量 目 
标 ， 系 统 所 能 承受 的 最 大 用 户 数 。 第 三 ， 系 统 不 能 在 答案 质量 方面 做 出 妥协 ， 因 为 快速 输出 
坏 的 答案 是 比较 容易 的 。 这 些 主要 的 目标 一 一 可 扩展 性 、 容 量 和 质量 ， 是 信息 检索 系统 的 所 
有 模块 都 需要 的 : 
。 数据 收集 模块 依赖 于 系统 。 在 某 些 情况 下 ， 数 据 已 经 给 定 ， 并 且 已 经 是 分 布 式 的 
(如 搜索 多 个 文档 集 ) 。 在 另 一 些 情况 下 ， 数 据 虽 然 已 经 给 定 ， 但 系统 必须 将 数据 分 
发 。 最 后 ， 在 Web 搜索 引 警 中， 数据 已 经 是 分 布 式 的 ， 但 是 我 们 必须 重新 收集 它 
fi], kane MY eR COLA 12 章 ) 。 
。 索引 模块 有 两 个 任务 : 划分 文档 集 和 索引 。 划 分 过 程 需要 找到 好 的 分 配方 案 来 把 文档 集 
按照 文档 或 者 索引 项 划分 给 服务 器 。 和 传统 信息 检索 系统 一 样 ， 索 引 过 程 主要 是 建立 索 
引 结 构 。 可 以 利用 并 行 硬件 平台 设计 和 实现 高 效 的 文档 索引 算法 ， 如 10, 3 节 所 讨论 的 。 
。 查询 处 理 模 块 以 可 扩展 的 方式 处 理 查询 ， 并 且 具 有 这 些 属 性 : 低 响应 时 间 、 高 吞吐 
量 、 高 可 用 性 和 结果 的 高 质量 。 
如 表 10-1 所 示 ， 除 了 数据 划分 之 外 ， 所 有 模块 有 三 个 共同 的 高 层次 问题 ， 它 们 对 于 分 
布 式 系统 的 可 扩展 性 都 是 相当 关键 的 : 可 靠 性 、 通 信和 外 部 因素 。 我 们 先 解释 前 两 个 方面 ， 
因为 外 部 因素 是 比较 明显 的 。 接 下 来 ， 我 们 讨论 它们 如 何 影响 索引 和 查询 处 理 ， 以 扩展 我 们 
在 本 章 已 经 介绍 的 内 容 。 


R 10-1 分 布 式 信息 检索 系统 的 主要 模块 ， 以 及 每 个 模块 的 主要 问题 (基于 [99]) 

























模块 通信 可 靠 性 (同步 化 ) 外 部 因素 
部 分 索引 内 容 增 长 
ERI 更 新 内 容 变化 
合并 全 局 统计 
用 户 需 求 变更 
, 复制 排序 聚合 
查询 BH 个 性 化 用 户 基 数 增长 


域名 解析 系统 (DNS) 





3. 可 靠 性 

故障 可 能 导致 系统 或 者 系统 的 某 些 部 分 不 可 用 。 对 于 关键 任务 系统 来 说 ， 这 是 特别 不 希 
望 看 到 的 ， 如 商业 搜索 系统 的 查询 处 理 组 件 。 特 别 地 ， 可 用 性 对 这 类 系统 常常 是 影响 最 大 的 
属性 ， 因 为 它 影响 了 提供 搜索 服务 的 公司 的 主要 收入 来 源 。 然 而 ， 在 有 很 多 组 件 的 分 布 式 系 
统 中 ， 我 们 可 以 利用 数据 的 重复 性 用 不 同 的 方式 处 理 故 障 。 分 布 式 系 统 中 的 故障 虽然 较 少 出 
现 ， 但 另 一 方面 ， 仍 然 比 我 们 所 预想 的 更 加 频繁 ， 例 如 Junqueira 和 MarzulloL857] 所 展示 
的 关于 站 点 可 用 性 的 例子 。 联 合 信息 检索 系统 由 若干 分 布 在 广域网 上 的 查询 处 理 器 (相当 于 
站 点 ) 组 成 ， 而 在 任何 时 候 都 可 以 断 开 连接 的 对 等 系统 ， 甚 至 会 有 更 多 的 查询 处 理 器 ， 因 此 
都 出 现 站 点 不 可 用 的 情况 。 

应 对 故障 的 一 个 经 典 的 方法 就 是 复制 。 在 一 个 分 布 式 信 息 检索 系统 中 ， 复 制 体现 在 不 同 
的 方面 : 网络 通 信 、 功 能 和 数据 。 为 了 复制 网 络 通信 ， 我 们 复制 链接 数 ， 使 站 点 多 处 安置 。 
在 客户 端 /服务 器 系统 中 ， 在 网 络 通信 上 的 这 种 元 余 减 少 了 部 分 客户 端 和 服务 器 无 法 通信 的 
概率 。 在 由 大 量 处 于 不 同 地 理 位置 的 客户 端 组 成 的 对 等 系统 中 ， 这 个 问题 并 不 那么 严重 ， 因 
为 设计 这 样 的 系统 已 经 在 网 络 连接 性 方面 提供 了 足够 的 多 样 性 。 

对 于 功能 和 数据 ， 有 两 种 可 能 级 别 的 复制 ， 单个 站 点 和 跨 站 点 。 在 单个 站 点 中 ， 如 果 功 
能 或 数据 未 被 复制 ， 那 么 单 点 故障 可 能 会 造成 服务 无 法 访问 。 例 如 ， 如 果 集 群 有 单个 负载 均 
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衡器 ， 并 且 该 负载 均衡 器 发 生 故 障 ， 那 么 这 个 集群 将 因为 这 个 故障 而 停止 工作 。 使 用 多 个 站 
点 提高 了 总 有 某 个 服务 器 能 够 执行 请 求 〈( 如 处 理 查询 ) 的 可 能 性 。 当 站 点 故障 比较 频繁 时 ， 
这 点 尤其 必要 。 这 个 悬而未决 的 问题 是 如 何 选 择 站 点 的 位 置 ， 以 及 满足 某 个 特定 可 用 性 目标 
所 需要 的 复制 标准 。 

4. 通信 

正如 我 们 之 前 已 经 介绍 的 ， 将 信息 检索 系统 的 任务 分 布 化 能 实现 多 个 我 们 所 期 望 的 特 
性 。 将 任务 分 布 到 多 个 服务 器 上 的 一 个 主要 缺点 是 这 些 服 务 器 必须 进行 通信 。 网 络 通信 可 能 
会 成 为 瓶 项 ， 因 为 带宽 常常 是 稀缺 的 资源 ， 特 别 是 在 广 域 系统 中 。 而 且 ， 服 务 器 之 间 的 物理 
距离 也 极 大 地 增加 了 传递 特定 消息 的 时 延 。 尽 管 在 局 域 网 消息 时 延 是 百 微 秒 的 数量 级 ， 但 是 
在 广域网 ， 它 可 能 多 达 几 百 毫秒 。 

实现 分 布 式 信息 检索 系统 的 方案 必须 考虑 到 这 些 限制 。 作 为 一 个 简单 的 例子 ,假设 我 们 
将 前 端 服 务 器 建 模 成 一 个 排队 系统 G/G/c， 模 型 中 的 c 个 服务 器 对 应 于 在 Web 服务 器 上 服 
务 请 求 的 线程 9 。 如 果 每 个 线程 对 请 求 的 响应 依赖 于 这 个 线程 和 系统 其 他 部 分 的 通信 ， 那 么 
带宽 和 消息 时 延 将 对 线程 回答 这 样 一 个 请 求 所 需 的 时 间 造 成 影响 。 假 设 c= 二 150 (在 Apache 
服务 器 上 最 大 客户 端 数 的 典型 值 )， 图 10-12 展示 了 在 不 同 的 平均 服务 率 情况 下 ， 系 统 容量 
WER (对 于 给 定 的 点 a, y), WR 工 是 平均 的 服务 时 间 ， 那 么 容量 就 必须 小 于 y, “否则 
服务 队列 将 增长 到 无 限 大 )。 在 图 10-12 中 ， 随 着 每 个 线程 平均 服务 时 间 的 增加 ， 最 大 容量 
下 降 得 十 分 厉害 ， 当 平均 服务 时 间 从 10ms 上 升 到 100ms 时 ， 它 从 15 FRB 2。 这 个 简单 的 
实验 说 明了 在 设计 方案 时 考虑 网 络 通信 影响 的 重要 性 。 
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10-12 使 用 G/G/150 模型 的 前 端 服 务 器 的 最 大 容量 ,来 自 Challen- 
ges on distributed Web retrieval, Proceedings of ICDE 2007 
(Baeza-Yates et al. ) pp. 6-20 (2007), ©2007 IEEE [99] 


10.6.2 索引 
在 查询 处 理 器 之 间 划 分 索引 的 一 个 方法 是 考虑 文档 中 提 到 的 主题 [1361]。 例 如 ， 一 个 


© G/G/c 队列 建 模 了 一 个 系统 ， 该 系统 中 查询 到 达 和 服务 时 间 的 分 布 是 任意 的 ， 并 且 有 c 个 服务 器 来 服务 请 求 
[1385]. 
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拥有 特定 主题 的 文档 索引 的 查询 处 理 器 也 许 能 更 加 有 效 地 处 理 与 该 主题 相关 的 查询 。 根 据 主 
题 分 发 查询 涉及 识别 文档 和 查询 的 主题 。 将 查询 匹配 主题 就 是 在 10. 3. 2 节 所 说 的 文档 集 选 
择 问 题 。 文 档 集 的 所 有 分 区 根据 它们 和 查询 的 相似 程度 排序 。 然 后 ， 由 排序 最 高 的 那 部 分 分 
区 真正 地 处 理 查询 。 这 样 划分 索引 的 一 个 挑战 是 文档 或 查询 的 主题 分 布 的 变化 可 能 会 对 分 布 
式 检索 系统 的 性 能 造成 负面 影响 。 如 [308] 所 示 ， 对 分 布 式 查询 处 理 架 构 的 模拟 说 明 ， 查 
询 主题 分 布 的 变化 可 能 会 对 性 能 造成 负面 影响 ， 导 致 未 能 充分 利用 资源 或 者 对 热门 的 主题 只 
分 配 了 较 少 的 资源 。 针 对 这 个 挑战 的 一 个 可 能 的 解决 方案 是 , 考察 来 自信 息 检 索 系 统 的 查询 
日 志 的 信息 ， 自 动 地 重新 配置 索引 划分 。 

根据 查询 的 语言 来 划分 索引 也 是 一 个 合适 的 方法 。 识 别 文 档 的 语言 可 以 通过 如 下 的 方法 
进行 ， 如 比较 文档 和 每 种 目标 语言 的 ”元 文法 (n-gram) 语言 模型 [346]， 或 者 比较 某 种 语 
言 最 频繁 的 词语 出 现在 文档 的 概率 [673]。 类 似 的 技术 也 可 以 识别 查询 的 语言 ， 即 使 每 个 查 
询 的 文本 量 和 额外 的 上 下 文 元 数据 有 限 ， 但 该 过 程 也 可 能 会 引入 错误 。 在 使 用 语言 分 发 查询 
时 ， 另 一 个 挑战 是 存在 多 语言 文档 ,特别 是 在 Web E. 例如， 技术 内 容 的 文档 可 能 有 多 个 
英语 术语 ， 尽 管 主要 的 语言 是 另外 一 个 。 此 外 ， 查 询 也 可 以 是 多 语言 的 ， 涉 及 不 同 语言 的 查 
询 项 。 

以 分 布 式 的 方式 建立 索引 是 一 个 具有 挑战 性 的 问题 。 目 前 为 止 ， 很 少 有 论文 提出 以 分 布 
式 的 方式 建立 倒 排 索引 的 方法 。 例 如 ， 一 种 可 能 的 方法 是 以 管道 形式 组 织 服 务 器 [1117]. 
[485] 给 出 了 一 个 在 大 规模 计算 机 集群 上 建立 索引 的 map-reduce 方案 。 

1. 可 靠 性 

分 布 式 索引 本 身 并 不 是 一 个 关键 的 过 程 。 然 而 ， 分 布 式 检索 系统 的 良好 运作 依赖 于 存在 
促进 查询 处 理 的 索引 结构 。 例 如 ， 如 果 足 够 多 的 索引 服务 器 失效 ， 使 得 无 法 访问 索引 数据 来 
处 理 查询 ， 那 么 服务 作为 一 个 整体 也 就 失效 了 ， 尽 管 系统 的 其 他 部 分 可 能 还 在 很 好 地 工作 。 
另 一 个 与 可 靠 性 相关 的 问题 是 索引 的 更 新 。 在 那些 必须 返回 最 新 查询 结果 ， 以 及 内 容 更 新 十 
分 频繁 的 系统 中 ， 很 重要 的 一 点 是 ， 保 证 在 给 定 的 时 间 点 ， 可 用 的 索引 数据 能 够 即时 反映 内 
容 的 变化 。 

还 有 一 些 和 划分 方案 相关 的 可 靠 性 问题 。 在 项 划分 系统 中 ， 如 果 系 统 的 一 个 服务 器 失效 
了 ， 那 么 就 不 可 能 恢复 那 台 服 务 器 上 的 数据 ， 除 非 它 进行 过 复制 。 如 果 未 曾 复制 ， 那 么 一 个 
不 高 效 但 可 行 的 恢复 方案 是 重建 整个 索引 。 另 一 个 可 能 方案 是 ， 使 不 同 分 区 上 的 数据 部 分 重 
要 ， 这 样 如 果 一 台 服 务 器 失效 了 ， 那 么 至 少 其 他 服务 器 仍然 能 够 回答 查询 。 文 档 划 分 系统 对 
于 服务 器 失效 问题 则 更 加 健壮 。 假 如 一 个 服务 器 失效 了 ， 那 么 系统 仍然 有 能 力 回 答 查询 ， 虽 
然 没 有 使 用 所 有 子 文档 集 ， 但 可 能 并 不 会 损失 太 多 的 效果 。 在 分 布 式 信息 检索 系统 领域 中 ， 
可 靠 性 问题 并 未 研究 得 很 成 熟 。 通 过 追踪 实际 的 系统 来 进行 精确 的 分 析 能 更 好 地 说 明 这 些 
观点 。 

2. 通信 . 

如 果 我 们 发 现 查 询 的 分 布 有 变化 ， 那 么 说 明 用 户 模 型 可 能 也 已 经 改变 了 。 处 理 这 样 的 问 
题 是 重要 的 ， 因 为 信息 检索 系统 可 能 会 在 偏离 真实 的 情况 下 进行 操作 。 在 这 种 情况 下 ， 系 统 
应 该 适应 新 的 条 件 ， 也 就 是 说 索引 必须 再 次 进行 划分 。 一 个 简单 、 直 接 的 方法 是 暂停 部 分 索 
引 ， 和 替换 它 ， 然 后 重新 初始 化 。 尽 管 这 样 暂时 减少 了 容量 ， 然 而 为 了 使 信息 检索 系统 正确 运 
行 ， 这 个 限制 并 不 是 一 个 问题 。 

索引 过 程 受 制 于 分 布 式 合并 操作 ， 并 且 这 也 会 影响 服务 器 之 间 的 通信 。 取 得 这 个 目标 的 
一 个 实用 方法 是 map-reduce 方法 [485]。 然 而 ， 如 果 不 同 站 点 独立 执行 操作 ， 那 么 这 就 需 
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要 大 量 的 带宽 。 在 这 种 情况 下 ， 对 于 这 种 合并 操作 的 好 机 制 必须 同时 考虑 通信 和 计算 两 个 
方面 。 

实用 的 大 型 信息 检索 系统 通常 在 每 次 文档 集 更 新 后 ， 从 头 开始 重建 索引 。 但 对 于 新 闻 文 
章 和 博客 等 一 些 更 新 十 分 频繁 的 特殊 文档 集 来 说 ， 并 不 能 这 样 更 新 ， 而 通常 需要 某 种 在 线索 
引 维 护 策略 。 因 为 更 新 操作 常常 需要 锁 住 索引 ， 所 以 动态 的 索引 结构 限制 了 系统 的 容量 和 响 
应 时 间 ， 这 样 可 能 危害 整个 系统 的 性 能 。 一 个 十 分 有 趣 的 问题 是 ， 是 否 有 可 能 安全 地 锁 住 索 
引 ， 同 时 又 不 损失 太 多 性 能 。 这 在 项 划分 的 分 布 式 信息 检索 系统 中 更 易 成 为 问题 。 那 些 需 要 
频繁 更 新 的 索引 项 可 能 分 布 在 多 个 不 同 的 服务 器 上 ， 这 样 就 放大 了 加 锁 的 影响 。 

3. 外 部 因素 

在 分 布 式 信息 检索 系统 中 ， 有 多 个 瓶颈 需要 处 理 。 取 决 于 如 何 划分 索引 ， 不 同 的 因素 可 
能 会 导致 一 些 严 重 的 问题 。 例 如 ， 在 文档 划分 的 信息 检索 系统 中 ， 有 可 能 需要 计算 一 些 全 局 
参数 的 值 ， 如 索引 项 的 文档 集 频 率 或 反比 文档 频率 。 有 两 种 可 能 的 解决 方法 。 一 种 方法 是 ， 
通过 在 索引 过 程 后 聚合 所 有 的 本 地 统计 数据 ， 可 以 计算 最 终 的 全 局 参数 值 。 而 采用 另 一 种 方 
法 ， 最 终 聚 合 操作 经 常 也 有 可 能 避免 。 在 这 种 情况 下 ， 计 算 全 局 统计 数据 的 问题 就 转移 到 了 
系统 代理 上 ， 它 负责 将 查询 派发 给 查询 处 理 服务 器 并 合并 结果 。 

为 了 计算 这 些 统计 数据 ， 代 理 程 序 通常 用 一 个 两 轮 协议 来 处 理 查询 。 在 第 一 轮 中 ， 代 理 
程序 从 每 个 服务 器 上 请 求 本 地 统计 数据 ;在 第 二 轮 中 ， 它 将 全 局 统计 信息 附加 到 包含 查询 的 
第 二 个 消息 上 ， 再 从 每 个 服务 器 请 求 结果 。 这 时 的 问题 是 ， 这 样 一 个 使 用 本 地 而 不 是 全 局 统 
计 的 “智能 ”的 划分 策略 ， 对 最 终 的 系统 有 效 性 会 有 什么 样 的 影响 ? 回答 这 个 问题 十 分 困 
难 。 在 真实 世界 的 搜索 引擎 中 ， 实 际 上 很 难 定 义 一 个 查询 的 正确 答案 是 什么 ， 故 而 难以 知道 
使 用 本 地 统计 数据 是 否 会 造成 影响 。 衡 量 这 个 效果 的 一 个 可 能 的 方法 是 比较 在 全 局 统计 数据 
上 计算 的 结果 集 和 只 在 本 地 统计 数据 上 计算 的 结果 集 。 而 且 ， 如 果 我 们 利用 了 文档 集 选择 策 
略 ， 那 么 全 局 统计 数据 就 无 法 使 用 了 。 


10.6.3 查询 处 理 


以 分 布 式 的 方式 处 理 查 询 意 味 着 ， 当 处 理 某 个 特定 查询 时 ， 需 要 决定 从 分 布 式 系 统 分 配 
哪些 资源 。 在 分 布 式 搜 索 系 统 中 ， 可 用 的 资源 池 由 承担 如 下 角色 之 一 的 组 件 组 成 : 协调 器 、 
缓存 或 查询 处 理 器 。 协 调 器 从 客户 端 计算 机 接受 查询 ， 并 决定 如 何 将 这 些 查 询 分 发 到 系统 的 
不 同 部 分 ， 以 便 查询 可 以 在 那里 被 恰当 地 处 理 s 。 查 询 处 理 器 持 有 索引 或 文档 信息 ， 它 们 分 
别 用 于 检索 和 准备 结果 展示 。 

网 络 通信 是 不 同 参与 者 需要 通信 来 进行 工作 的 这 类 分 布 式 系统 不 可 或 缺 的 一 部 分 。 根 据 
网 络 的 类 型 和 物理 接近 性 ， 时 延 的 变化 范围 可 能 是 相当 可 观 的 ， 所 以 在 处 理 单 个 查询 时 涉及 
多 个 服务 器 代价 可 能 会 比较 高 。 为 了 缓解 这 个 问题 ， 缓 存 服务 器 可 以 为 最 常 访问 或 最 热门 的 
查询 保存 结果 ， 协 调 器 可 以 使 用 缓存 的 结果 回答 客户 端 。 在 通信 代价 比较 高 的 情况 中 ， 通 过 
只 接触 单个 缓存 服务 器 从 而 回答 某 些 查询 的 这 个 简单 方法 ， 缓 存 服务 器 可 以 减少 查询 时 延 和 
服务 器 负载 。 

一 个 重要 的 假设 是 ， 有 一 个 或 多 个 服务 器 实现 每 种 角色 的 组 件 。 这 个 假设 对 于 大 型 系 
统一 一 高 访问 量 和 大 数据 量 的 系统 来 说 尤其 重要 。 在 设计 组 件 时 ， 我 们 可 以 加 入 更 多 的 物理 


O 协调 器 可 以 是 文档 或 项 划分 的 分 布 式 系统 的 代理 程序 ,或 者 是 将 查询 分 发 给 不 同 站 点 的 站 点 级 别 的 代理 。 因 此 ， 
我 们 使 用 一 个 更 加 通用 的 术语 ， 而 不 叫 它 代理 程序 。 
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服务 器 来 提高 整体 的 系统 容量 ， 这 对 于 这 样 的 大 型 系统 是 十 分 重要 的 ， 因 为 这 使 得 系统 具有 
可 扩展 性 。 实 际 上 ， 将 系统 的 多 个 部 分 分 割 成 多 个 组 件 角 色 已 经 是 提升 扩展 性 的 一 种 尝试 ， 
因为 单个 独立 系统 不 可 能 不 受 限制 地 扩展 (想象 Web 搜索 引擎 的 大 小 )。 因 为 这 些 服务 器 可 
能 存放 在 不 同 的 物理 位 置 和 地 理 区 域 ， 所 以 我 们 将 每 组 服务 器 叫做 一 个 站 点 (site). 


图 10-13 描绘 了 一 个 多 站 点 分 布 式 信 息 检索 系统 的 实例 ， 它 由 上 面 所 述 的 组 件 和 对 应 角 


色 组 成 。 在 不 同 的 区 域 有 三 个 站 点 。 每 个 站 点 由 多 个 协调 器 、 缓 存 和 查询 处 理 器 组 成 。 来 自 
客户 端的 查询 被 导向 到 最 近 的 服务 器 ， 这 里 是 站 点 A〈 路 径 1) 。 站 点 A 的 协调 器 因为 负载 
均衡 或 文档 集 选择 等 原因 将 查询 发 送 给 站 点 B (路径 2) 。 站 点 B 在 它 的 处 理 器 上 回答 查询 
问题 ， 并 将 结果 返回 给 客户 端 (路 径 3) 。 





查询 处 理 器 : 将 文档 同 接收 
的 查询 匹配 

协调 器 : 接收 查询 ， 并 将 它 
们 导向 合适 的 站 点 


缓存 : 保存 之 前 查询 的 结果 


图 10-13 一 个 分 布 式 查 询 处 理 系统 的 实例 。 每 个 服务 器 的 角色 在 右 侧 描 述 ， 来 自 Challenges 


on distributed web retrieval, Proceedings of ICDE 2007 (Baeza-Yates et al. ), 
pp. 6-20 (2007), ©2007 IEEE [99] 


我 们 根据 四 个 属性 对 分 布 式 查询 处 理 系统 分 类 : 
。 组 件 的 数目 。 对 每 个 角色 ， 系 统 可 以 有 多 个 组 件 。 有 多 个 协调 器 可 以 改善 响应 时 间 


和 可 用 性 ， 提 升 用 户 的 体验 。 对 多 缓存 组 件 有 同样 的 结论 : 它们 同样 有 改善 响应 
时 间 和 可 用 性 、 减 少 查询 处 理 器 的 服务 器 负载 的 潜力 。 缓 存 的 可 用 性 不 仅 需 要 处 
理 缓 存 组 件 的 失效 ， 而 且 还 包括 查询 处 理 器 的 失效 。 如 果 某 个 查询 处 理 器 暂时 不 
WA, 那么 缓存 服务 器 就 可 以 在 断 供 期 提供 缓存 的 查询 结果 。 最 后 ， 由 于 地 理 位 
置 和 资源 的 多 样 性 ， 多 个 查询 处 理 器 使 得 系统 更 加 可 靠 ， 并 且 提 供 了 可 扩展 的 解 
决 方案 。 

可 连接 性 。 所 有 组 件 要 人 么 连接 到 相同 的 局 域 网 ， 要 么 分 布 在 不 同 的 地 理 位 置 ， 通 过 
广域网 连接 。 

角色 的 差别 。 一 个 查询 处 理 系统 的 组 件 可 以 有 一 个 或 多 个 和 角色。 通常 ， 组 件 〈 协 调 
器 、 缓 存 和 查询 处 理 器 ) 实现 服务 器 端 ， 用 于 处 理 查询 ， 而 客户 端 只 负责 提交 查询 。 
这 实现 了 传统 的 客户 端 /服务 器 模型 ， 因 为 在 客户 端 和 服务 器 之 间 有 着 很 明显 的 差 
别 ， 前 者 只 提交 查询 ， 后 者 只 处 理 查询 。 另 外 ， 它 们 也 可 以 同时 是 客户 端 和 服务 器 ， 
如 在 对 等 (P2P) 系统 中 [181，443，1559]。 在 这 样 的 系统 中 ， 所 有 的 端点 都 承担 
我 们 上 面 提 到 的 所 有 角色 。 
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。 ZH., EKA (federate) 系统 中 ， 独 立 的 实体 形成 单个 系统 A 10.7 节 )。 例 如 ， 

一 个 跨越 多 个 国家 的 组 织 可 能 有 多 个 独立 的 系统 ， 它 们 一 起 形成 了 整个 组 织 的 系统 。 
联合 系统 也 可 能 由 不 同 组 织 的 站 点 组 成 ， 并 且 用 一 些 形式 协议 来 限制 每 个 站 点 只 能 
执行 某 些 特定 的 行为 。 在 联合 系统 中 的 交互 更 加 简单 ， 因 为 有 理由 假设 某 些 实体 会 
监管 这 个 系统 。 于 是 组 件 就 可 以 互相 信任 ， 可 以 访问 任何 其 他 组 件 ， 获 取 所 需 的 信 [432 
息 ， 并 且 假 设 所 有 其 他 组 件 都 以 最 有 利于 系统 的 方式 来 运作 。 然 而 ， 在 开放 系统 

中 8 ， 和 情况 可 能 并 不 是 这 样 的 [1473]。 来 自 不 同 组 织 的 站 点 虽然 有 合作 ， 但 并 不 统 

一 ， 因 此 可 能 会 从 利己 的 角度 操作 ， 如 改变 查询 解析 的 优先 级 ， 从 而 影响 特定 查询 

的 执行 性 能 。 

组 件 的 数目 是 重要 的 ， 因 为 它 决定 了 可 用 于 查询 处 理 的 资源 量 。 根 据 这 些 组 件 如 何 连 接 
(局 域 网 与 广域网 )， 如 何 分 配 这 些 组 件 的 选择 也 会 变化 ， 因 为 不 同 的 选择 会 导致 不 同 的 性 
能 。 实 际 上 ， 最 小 化 每 个 查询 所 用 的 资源 量 一 般 来 说 是 比较 重要 的 目标 ， 因 为 如 果 每 个 查询 
使 用 更 少 的 资源 ， 那 么 系统 的 整体 容量 就 会 提升 。 在 客户 端 /服务 器 系统 中 ， 服 务 器 端 可 用 
的 资源 量 决定 了 系统 的 总 容量 。 这 样 ， 处 理 查询 的 所 有 可 用 资源 量 并 不 随 着 客户 端的 数目 而 
增长 。 然 而 ， 在 对 等 系统 中 ， 任 何 新 的 参与 者 同时 是 新 的 客户 端 和 新 的 服务 器 。 假 设 “免费 
搭便 车 ”并 不 流行 ， 那 么 处 理 查询 的 所 有 可 用 总 资源 量 随 着 客户 端的 数目 增长 而 增长 。 在 联 
合 系统 中 ， 独 立 的 系统 组 合 形成 单个 系统 ， 因 此 不 需要 考虑 伙伴 间 的 信任 和 正确 行为 等 问 
题 。 在 开放 系统 中 ， 伙 伴 关 系 有 可 能 提高 系统 提供 给 客户 端的 总 体 服务 质量 。 然 而 ， 在 这 样 
的 系统 中 ， 伙 伴 可 能 会 以 利 已 的 方式 来 分 配 资源 ， 因 此 可 能 会 对 某 一 方 获得 的 结果 造成 负面 
的 影响 。 

因为 所 有 的 系统 都 划分 数据 ， 所 以 这 实际 上 潜在 地 增强 了 查询 的 吞吐 性 能 。 在 按 文档 
划分 的 情况 中 ， 我 们 可 能 只 选择 搜索 服务 器 中 实际 包含 相关 文档 的 那 部 分 机 器 ， 而 不 是 
使 用 系统 中 所 有 可 用 的 资源 来 执行 查询 。 这 个 选择 的 子 集 可 能 只 包含 一 部 分 相关 文档 集 。 
然而 ， 尽 可 能 获得 最 大 部 分 的 相关 文档 是 一 个 具有 挑战 性 的 问题 ， 通常 叫做 文档 集 选 择 
(collection selection) 或 查询 路 由 (query routing) (AL 10.3.2 节 )。 这 也 依赖 于 划分 文档 集 
时 所 使 用 的 技术 COL 10.3.1 节 )。 在 按 索 引 项 划分 的 情况 中 ， 有 效 的 文档 集 选择 并 不 是 
一 个 困难 的 问题 ， 因 为 其 方法 是 直截了当 的 ， 即 选择 包含 特定 查询 项 信息 的 服务 器 。 当 
接收 到 一 个 查询 时 ， 我 们 将 只 把 查询 转发 到 那些 负责 维护 相关 查询 项 子 集 的 服务 器 。 在 
按 文档 划分 的 情况 中 ， 问 题 复 杂 得 多 ， 因 为 我 们 无 法 提前 知道 哪些 服务 器 包含 了 最 相关 
的 结果 。 

1. 查询 负载 均衡 

实际 上 ， 查 询 吞 吐 量 的 主要 问题 是 服务 器 负载 的 不 平均 分 布 。 图 10-14 (来 自 [1673]) 
展示 了 文档 划分 系统 〈 左 ) 和 管道 式 项 划分 系统 E) 中 八 个 服务 器 的 平均 忙 时 负载 。 两 张 [433 
图 中 的 虚线 对 应 所 有 服务 器 的 平均 忙 时 负载 。 在 项 划分 系统 的 情况 中 使 用 管道 架构 )， 很 
明显 在 服务 器 负载 分 布 的 平衡 上 有 所 缺失 ， 这 对 系统 的 吞吐 量 会 有 负面 的 影响 。 

为 了 解决 这 个 问题 ， 可 以 尝试 使 用 “智能 ”划分 技术 ， 它 将 对 索引 访问 模式 加 以 估计 ， 
以 此 来 平均 分 配 服务 器 负载 。 在 将 文档 随机 划分 到 服务 器 的 情况 中 ， 所 有 的 服务 器 接收 所 有 
的 查询 。 原 则 上 这 是 一 个 完美 的 负载 均衡 。 但 是 ， 每 个 服务 器 的 工作 量 并 不 一 定 是 相同 的 ， 
因此 随机 划分 并 不 保证 均等 的 查询 负载 均衡 [83] 。 





O ”开放 系统 在 文献 中 也 叫 非 合作 系统 。 


318 + 第 10 章 并 行 与 分 布 式 信息 检索 


100.0 — 100.0 — 


80.04 80.04 
60.04 x 6007 8 BF 8 ~~ ____ 
aX 
Z 
40.0 — 40.04 
20.0 — 20.0 ~ 
| 
0.0 — 0.0 
L 2 3 #44 6 F 8 l 3 45 6 7 8 


文档 划分 管道 式 
图 10-14 在 文档 划分 系统 和 管道 式 项 划分 系统 中 ， 每 个 处 理 器 平均 负载 的 分 布 


对 于 项 划分 系统 ，Moffat 等 人 [1151] 显示 ， 通 过 利用 索引 项 出 现在 查询 中 的 频率 信 
息 和 记录 列表 备份 有 可 能 平衡 负载 。 简 单 地 说 ， 他 们 将 在 项 划分 系统 中 划分 词汇 表 的 问题 转 
化 为 一 个 装 箱 问 题 (bin-packing problem) ， 其 中 每 个 箱子 代表 一 个 分 区 ， 每 个 项 表示 为 要 
放 到 箱子 中 的 物体 。 每 个 项 有 一 个 权重 ， 与 其 在 查询 日 志 中 出 现 的 频率 和 记录 表 的 长 度 成 比 
例 。 这 项 工作 显示 ， 该 策略 对 项 划分 系统 的 性 能 是 有 好 处 的 ， 因 为 它 能 更 加 平均 地 把 负载 分 
布 到 每 个 服务 器 上 。 不 过 ， 实 验 结果 显示 .即使 考虑 因 负 载 均 衡 所 带 来 的 性 能 改进 ， 项 划分 
系统 取得 的 吞吐 量 还 是 比 文档 划分 系统 低 。 类 似 地 ，Lucchese 等 人 [1060] 在 之 前 的 装 箱 
方法 的 基础 上 ， 设 计 了 一 个 关于 项 和 划分 的 权重 函数 ， 它 能 够 对 每 台 服 务 器 上 的 查询 负载 建 
模 。 在 原始 的 装 箱 问 题 中 ， 我 们 简单 地 关注 于 平衡 分 配给 箱子 的 权重 。 然 而 ， 在 这 个 情况 
中 ,目标 函数 同时 依赖 于 分 配给 项 的 权重 (我 们 的 目标 )， 以 及 查询 中 项 的 共 现 情况 。 这 个 
函数 的 主要 目标 是 将 查询 中 共 现 的 项 分 配给 相同 的 索引 分 区 。 这 对 减少 需要 查询 的 服务 器 数 

434]” 量 和 每 个 服务 器 上 的 通信 代价 都 是 重要 的 。 

注意 ， 基 于 文档 的 主题 或 语言 的 划分 方案 可 能 会 带 来 类 似 的 查询 处 理 器 负载 不 均衡 现 
象 ， 尽 管 当 可 以 预测 负载 时 ， 给 站 点 分 配 相 应 的 负载 是 个 可 行 的 方案 。 

2. 可 靠 性 

查询 处 理 器 是 一 个 关键 的 角色 ， 因 为 如 果 没 有 处 理 能 力 和 它们 所 保存 的 数据 ， 那 么 系统 
就 无 法 满足 客户 端 请 求 。 同 样 ， 由 于 它们 处 理 大 量 的 数据 (如 索引 和 文档 等 )， 确 定好 的 查 
询 处 理 器 复制 方案 是 有 挑战 性 的 。 通 过 在 不 同 的 查询 处 理 器 间 复 制 数 据 ， 提 高 了 存在 某 个 可 
用 的 处 理 器 包含 处 理 特定 查询 所 需 数据 的 可 能 性 。 通 过 相互 间 的 完全 复制 ， 可 以 使 所 有 查询 
处 理 器 都 保存 相同 的 数据 ， 这 样 就 会 取得 最 高 水 平 的 可 用 性 。 但 是 ， 这 可 能 会 付出 巨大 却 不 
必要 的 代价 ， 还 会 减少 总 的 存储 容量 。 因 此 ， 一 个 悬而未决 的 问题 是 如 何 复制 数据 ， 使 得 系 
统 在 最 小 的 存储 代价 下 取得 足够 的 可 用 性 。 

由 于 地 理 位 置 和 资源 的 多 样 性 ， 多 个 查询 处 理 器 使 得 系统 更 加 可 靠 ， 并 提供 了 一 种 更 可 
扩展 的 解决 方案 。 此 外 ， 组 存 服务 器 的 可 用 性 不 仅 需 要 处 理 缓存 组 件 的 失效 ， 而 且 也 包括 查 
询 处 理 器 的 失效 。 如 果 某 个 查询 处 理 器 暂时 不 可 用 ， 那 么 缓存 服务 器 就 可 以 在 断 供 期 提供 组 
存 的 查询 结果 。 

对 于 在 线 系统 ， 尽 管 高 可 用 性 是 十 分 重要 的 目标 ， 但 它 并 不 是 唯一 的 目标 。 一 致 性 同样 
很 重要 。 特 别 地 ， 当 我 们 考虑 个 性 化 等 特征 时 ， 每 个 用 户 有 自己 的 状态 空间 ， 其 中 包含 表明 


负载 率 
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其 偏好 的 变量 ;并 且 在 每 次 查询 时 都 可 能 会 更 新 用 户 状态 。 在 这 样 的 情况 中 ， 有 必要 保证 在 
每 次 更 新 时 状态 是 一 致 的 ， 并且 用 户 的 状态 不 会 丢失 。 有 一 些 来 自分 布 式 算法 的 技术 ， 如 状 
态 机 复制 [1440，971] 和 主 从 备份 [293，1775]， 可 以 用 来 实现 这 种 容错 服务 。 主 要 的 挑 
战 是 将 这 些 技 术 应 用 到 大 规模 系统 中 。 根 据 应 用 的 需求 ， 还 有 可 能 放松 一 致 性 的 强 约 束 ， 通 
过 使 用 接受 过 时 结果 的 技术 来 实现 一 致 性 的 弱 约 束 [C1407]. 

通过 使 用 缓存 ， 还 有 可 能 进一步 提高 容错 能 力 。 当 查询 处 理 器 失败 时 ， 系 统 返回 缓存 的 
结果 。 因 此 ， 在 设计 系统 时 可 以 考虑 将 缓存 系统 看 做 是 复制 的 替代 方案 或 补充 方案 。 一 个 重 
要 的 问题 是 ， 如 何 设计 这 样 一 个 能 有 效 解 决 故障 的 缓存 系统 。 当 然 ， 好 的 设计 方案 也 应 该 考 
虑 缓存 系统 的 主要 目标 ， 即 减少 系统 的 平均 响应 时 间 、 均 衡 执行 查询 的 服务 器 负载 和 提高 带 
宽 利 用 率 。 这 三 个 目标 将 转化 为 更 高 的 点 击 率 。 有 趣 的 是 ， 更 高 的 点 击 率 也 可 能 提高 容错 能 
力 。 不 同 于 减少 平均 时 延 的 目标 ， 当 处 理 故障 时 ， 对 特定 查询 提供 可 用 的 结果 也 是 重要 的 。 
例如 ， 一 个 可 能 的 缓存 架构 是 ， 通 过 广域网 使 用 消息 进行 通信 的 多 个 缓存 组 件 。 由 于 缓存 组 
件 间 的 消息 时 延 较 高 ， 因 此 这 样 的 架构 并 不 一 定 能 改善 查询 处 理 时 延 。Wolman 等 人 
L1715] 认 为， 协作 的 Web 缓存 机 制 并 不 一 定 能 改善 总 体 的 请 求 时 延 ， 主 要 因为 广域网 通信 
削弱 了 更 大 的 用 户 群 所 带 来 的 好 处 。 对 于 可 用 性 ， 这 样 的 架构 则 增加 了 系统 所 能 响应 用 户 查 
询 的 结果 数 ， 因 此 使 得 系统 的 可 用 性 提高 。 实 际 上 ， 支 持 使 用 分 布 式 协 作 缓 存 方案 来 提升 大 
型 分 布 式 信息 检索 系统 的 可 用 性 的 一 个 重要 论据 是 ， 在 广 域 系统 中 ， 网 络 的 连接 性 常常 依赖 
于 网 络 提供 者 ， 并 且 路 由 错误 发 生得 足够 频繁 [1248]. 

3. 通信 

分 布 式 查询 处 理 架 构 需 要 考虑 由 通信 和 合并 来 自 系统 不 同 组 件 的 信息 所 产生 的 代价 。 一 
个 管道 式 项 划分 系统 需要 把 经 过 部 分 解析 的 查询 在 服务 器 间 传 送 [1673，1151]。 然 而 ， 当 
在 邻近 或 短语 搜索 中 使 用 位 置信 息 时 ， 服 务 器 间 的 通信 开销 会 极 大 地 增加 ， 因 为 它 包 括 查 询 
项 的 位 置信 息 和 经 过 部 分 解析 的 查询 。 在 这 样 的 情况 下 ， 位 置信 息 需 要 高 效 地 压缩 ， 或 许 需 
要 对 有 可 能 出 现在 查询 中 的 词 的 位 置 进行 不 同方 式 的 编码 。 

在 文档 划分 的 情况 中 ， 查 询 处 理 器 将 查询 结果 发 送 到 协调 器 ， 它 对 结果 进行 合并 ， 检 出 
排名 最 高 的 结果 ， 并 展现 给 用 户 。 当 把 来 自 大 量 查询 处 理 器 的 结果 进行 合并 时 ， 协 调 器 可 能 
会 成 为 瓶颈 。 在 这 样 的 情况 中 ， 可 能 使 用 多 层 的 协调 器 来 减轻 这 个 问题 (308). WH, KA 
划分 系统 的 响应 时 间 依 赖 于 最 慢 组 件 的 响应 时 间 。 这 个 限制 并 不 一 定 是 由 它 的 文档 分 布 所 造 
成 的 ， 而 且 它 可 能 依赖 于 磁盘 缓存 机 制 、 内 存量 和 服务 器 数量 [83]. 

当 多 个 查询 处 理 器 参与 解析 查询 时 ， 通 信和 时 延 可 能 会 比较 大 。 减 轻 这 个 问题 的 一 个 方法 
是 采用 增 量 式 的 查询 处 理 方法 ， 其 中 更 快 的 查询 处 理 器 提供 初始 的 结果 集 。 其 他 一 些 较 远 的 
查询 处 理 器 以 更 高 的 时 延 提 供 额外 的 结果 ， 使 得 用 户 不 断 地 得 到 新 的 结果 。 增 量 查询 处 理 对 
结果 的 合并 过 程 有 影响 ， 因 为 时 延 ， 更 多 相关 的 结果 可 能 会 延迟 出 现 。 在 增 量 查询 处 理 中 ， 
客户 端 使 用 搜索 的 方式 也 可 能 发 生 模式 转变 [272]。 例 如 ， 我 们 可 以 想象 这 样 一 个 应 用 ， 它 
根据 上 下 文 自动 推断 出 查询 ， 并 返回 结果 ， 而 不 需要 用 户 直接 在 Web 界面 中 搜索 。 

当 查 询 处 理 涉 及 结果 的 个 性 化 时 ， 在 搜索 时 就 需要 来 自用 户 配置 的 一 些 额外 信息 ， 使 得 
搜索 结果 适合 用 户 的 兴趣 。 查 询 处 理 架 构 并 不 将 这 些 信息 看 成 是 必 不 可 少 的 部 分 L151). A 
外 一 个 和 大 型 信息 检索 系统 个 性 化 相关 的 挑战 是 ， 每 个 用 户 配 置 表示 一 个 状态 ， 这 必须 是 最 
新 的 状态 ， 并 在 复制 之 问 保持 一 臻 性。 或者， 一 个 系统 可 以 将 个 性 化 实现 为 客户 端 上 轻 量 级 
的 一 层 。 最 后 的 这 个 方法 很 吸引 人 ， 因 为 它 解决 了 集中 保存 用 户 及 其 行为 等 信息 的 隐私 问 
题 。 但 它 也 限制 了 用 户 只 能 始终 使 用 同样 的 终端 。 
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用 户 模型 变 得 不 准确 是 其 自身 的 问题 。 因 为 用 户 行为 随 着 时 间 变 化 ， 需 要 对 模型 相应 地 
进行 更 新 。 一 个 简单 的 方法 是 安排 模型 以 固定 的 时 间 间 隔 更 新 。 现 在 的 问题 是 ， 我 们 需要 多 
频繁 地 更 新 它 。 回 顾 一 下 ， 更 高 的 更 新 频率 意味 着 更 高 的 网 络 流量 以 及 更 低 的 查询 处 理 能 
力 。 理 想 地 ， 系 统 通信 能 够 第 一 时 间 适 应 当前 模型 的 变化 。 

此 外 ， 在 Web 搜索 引擎 等 大 型 信息 检索 系统 中 ， 每 天 都 有 几 十 万 到 几 百 万 次 的 查询 。 
将 记录 对 定义 用 户 模型 十 分 重要 的 行为 ， 并 且 高 效 地 使 用 它们 是 很 有 挑战 性 的 ， 因 为 数据 量 
可 能 极 大 。 实 际 上 ， 由 于 带宽 的 限制 ， 将 这 些 数据 从 一 台 服 务 器 转移 到 另 一 台 服 务 器 也 几乎 
是 不 可 能 的 。 

4. 外 部 因素 

大 型 信息 检索 系统 的 设计 在 不 同 的 方面 都 涉及 用 户 (或 客户 端 )。 例 如 ,为 了 评价 信息 
检索 系统 的 准确 率 ， 可 能 会 建立 一 个 相关 性 模型 。 类 似 地 ， 缓 存 策 略 的 设计 和 分 析 需 要 用 户 
的 信息 ， 或 者 用 户 模型 [544，1002]。 然 而 ， 用 户 行为 是 一 个 外 部 因素 ， 它 不 受信 息 检 索 系 
统 控制 。 用 户 搜 索 行为 的 任何 重大 变化 都 可 能 对 系统 的 准确 率 或 效率 产生 影响 。 例如， 用 户 
搜索 的 主题 在 过 去 已 经 发 生 了 缓慢 的 改变 [1519]， 因 此 可 能 必须 要 对 系统 资源 进行 重新 配 
置 来 保持 好 的 性 能 。 在 用 户 行 为 方面 的 变化 也 可 能 影响 到 缓存 策略 的 性 能 。 因 此 ， 如 果 用 户 
行为 变化 得 足够 频繁 ， 那 么 有 必要 提供 一 个 能 够 自动 重 配置 系统 ， 或 者 简单 地 替换 模块 的 机 
制 。 那 么 ， 挑 战 是 ， 如 何在 线 地 确定 何 时 用 户 行为 发 生 了 较 大 的 变化 。 


10.6.4 Web 问题 


在 Web 上 的 信息 检索 将 在 第 11 章 展 开 讨 论 。 为 了 完整 起 见 ， 我 们 在 这 里 简单 地 介绍 如 
何 把 并 行 和 分 布 式 信息 检索 应 用 到 Web 上 。 最 直接 的 应 用 是 将 Web 上 所 有 的 文档 收集 到 一 
个 单一 的 大 型 文档 集中 。 然 后 ， 就 可 以 把 Web 当做 一 个 大 型 的 文档 集 ， 直 接应 用 上 面 描述 
的 并 行 和 分 布 式 的 技术 。 这 也 是 当前 流行 的 大 部 分 Web 搜索 服务 所 采用 的 方法 。 

另外 ， 我 们 可 以 利用 组 成 Web 的 分 布 式 计算 机 系统 ,将 收集 、 组 织 和 搜索 所 有 文档 的 
工作 分 布 开 来 。 这 是 Harvest 系统 [244] 以 及 新 的 分 布 式 Web 搜索 架构 所 采用 的 方法 。 
Harvest 系统 由 多 个 组 件 组 成 ， 它 们 收集 、 汇 总 、 复 制 、 分 发 和 搜索 文档 。 用 户 查 询 由 代理 
程序 (broker) 处 理 ， 它 收集 和 完善 来 自 收集 器 (gather) 和 其 他 代理 程序 的 信息 。 某 个 特 
定 代理 程序 的 信息 常常 与 某 个 有 限 的 主题 集合 相关 ， 使 得 用 户 能 够 把 他 们 的 查询 发 送 到 最 合 
适 的 代理 程序 。 一 个 中 央 代 理 注册 点 帮助 用 户 找到 对 于 他 们 的 查询 最 合适 的 代理 程序 。 


10.7 联合 搜索 


联合 搜索 系统 依赖 于 多 个 不 同 的 异 质 服务 器 来 回答 用 户 查询 。 因 此 ， 为 了 建立 联合 信息 
检索 系统 ， 我 们 需要 考虑 和 许多 分 布 式 系统 共有 的 工程 问题 ， 以 及 信息 检索 特有 的 算法 问 
题 。 关 键 的 工程 问题 基本 有 三 个 : 1) 定义 发 送 请 求 和 结果 的 搜索 协议 ; 2) 设计 一 个 服务 
器 ， 它 能 高 效 地 接收 请 求 ， 初 始 化 子 进程 或 线程 来 服务 该 请 求 ， 并 使 用 合适 的 缓存 技术 来 利 
用 处 理 过 程 中 固有 的 局 部 性 ， 3) 设计 一 个 中 间 代 理 ， 它 能 并 行 地 提交 蜡 步 的 搜索 请 求 给 多 
个 服务 器 ， 并 将 中 间 结 果 合并 成 一 个 最 终 的 终端 用 户 响应 。 算 法 问题 也 有 三 个 : 1) 如 何 将 
文档 分 发 到 分 布 式 的 搜索 服务 器 上 〈 见 10. 3.1 节 ); 2) 如何 选择 应 该 由 哪个 服务 器 接收 特 
ERRER O 10. 3. 2 W; D 如 何 处 理 请 求 ， 并 把 来 自 不 同 服务 器 的 结果 合并 起 来 。 我 
们 主要 关注 最 后 一 个 问题 。 

搜索 协议 明确 说 明了 在 客户 端 和 服务 器 间 传 输 的 消息 的 语法 和 语义 ， 建 立 连接 并 进行 搜 
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索 所 需 的 消息 序列 ， 以 及 发 送 消息 的 内 在 传输 机 制 ( 如 TCP/IP)。 这 样 的 协议 至 少 应 该 允 
许 客户 端 : 

。 获得 关于 搜索 服务 器 的 信息 ， 如 服务 器 可 搜索 的 数据 库 列 表 ， 以 及 可 能 的 统计 信息 。 

。 使 用 明确 定义 的 查询 语言 对 一 个 或 多 个 数据 库 提交 搜索 请 求 。 

。 接收 明确 定义 格式 的 搜索 结果 。 

。 获取 搜索 结果 所 给 出 的 条 目 。 

对 于 由 同样 的 搜索 服务 器 组 成 的 封闭 系统 来 说 ， 定 制 的 搜索 协议 可 能 是 最 合适 的 ， 特 别 
是 如 果 和 需要 专门 功能 的 话 (如 对 请 求 和 结果 加 密 )。 另 外 ， 可 以 使 用 标准 的 协议 ,使 系统 和 
其 他 搜索 服务 器 更 加 容易 交互 。 用 于 客户 端 /服务 器 信息 检索 的 Z39. 50 [1023] 标准 〈 见 
7.1.4 节 ) 定义 了 一 个 广泛 使 用 的 协议 ， 它 有 足够 的 功能 性 来 支持 大 部 分 搜索 应 用 。 另 一 个 
用 于 分 布 式 异 质 搜索 的 协议 叫做 斯 坦 福 互 联网 元 搜索 协议 (Stanford Proposal for Internet 
Meta-Searching, STARTS) [664]， 它 是 斯 坦 福 大 学 与 一 些 搜索 产品 和 服务 提供 商 合作 开 
发 的 。STARTS 从 一 开始 就 设计 成 支持 联合 信息 检索 ， 并 包含 用 于 解决 相关 算法 问题 的 特 
性 ， 如 把 来 自 异 质 信息 源 的 结果 合并 。 关 于 元 搜索 的 更 多 信息 将 在 11. 10. 3 节 和 15. 3. 8 节 
介绍 。 

与 建立 高 效 客户 端 /服务 器 系统 有 关 的 其 他 工程 问题 已 在 文献 中 广泛 涉及 (如 Comer 和 
StevensL408]、Zomaya[1800])。 接 下 来 我 们 并 不 会 回顾 这 些 问 题 ， 而 是 更 加 详细 地 介绍 联 
合 信 息 检 索 的 查询 处 理 问 题 。 

查询 处 理 

在 联合 信息 检索 系统 中 的 查询 过 程 按 如 下 进行 : 

1) 选择 文档 集 进行 搜索 ; 

2) 将 查询 分 发 到 所 选择 的 文档 集 上 ; 

3) 在 每 个 分 布 式 文档 集 上 并 行 地 处 理 查询 ; 

4) 将 来 自分 布 式 文档 集 的 结果 合并 成 一 个 最 终结 果 。 

正如 之 前 所 描述 的 ， 如 果 查 询 总 是 广播 到 系统 中 的 每 个 文档 集 上 ， 那 么 步骤 1) 可 以 去 
除 。 否 则 ， 使 用 之 前 所 描述 的 某 个 选择 算法 ， 将 查询 分 发 到 所 选择 的 文档 集 上 。 然 后 参与 搜 
索 的 每 个 服务 器 在 所 选 的 文档 集 上 使 用 它 自己 的 本 地 搜索 算法 处 理 查询 。 最 后 ， 对 结果 进行 
合并 。 

到 此 为 止 ， 除 了 结果 合并 之 外 ， 我 们 已 经 涉及 了 所 有 内 容 。 对 于 结果 合并 ， 有 这 样 一 些 
场景 : 如果 查 询 是 布尔 类 型 的 ， 并 且 搜 索 服 务 器 返回 布尔 结果 集 ， 那 么 简单 地 合并 所 有 的 结 
果 集 来 生成 最 终 的 结果 集 ; 如果 查 询 涉及 自由 文本 排序 ， 那 么 就 有 一 些 从 简单 /朴素 到 复杂 / 
精确 的 技术 。 

最 简单 的 方法 是 ， 使 用 循环 交错 的 方式 来 合并 排 好 序 的 命中 列表 。 这 可 能 会 产生 质量 差 
的 结果 ， 因 为 来 自 较 不 相关 文档 集 的 返回 结果 与 来 自 高 度 相 关 的 文档 集 的 返回 结果 被 等 同 看 
待 了 。 对 这 个 过 程 的 一 种 改进 是 ， 基 于 它们 的 相关 分 数 合 并 命中 列表 。 但 是 ， 如 在 10.3.3 
节 所 描述 的 文档 划分 的 并 行 过 程 一 样 ， 除 非 使 用 合适 的 全 局 项 统计 数据 来 计算 文档 分 数 ， 否 
则 我 们 可 能 会 得 到 不 正确 的 结果 。 如 果 文 档 是 随机 分 布 的 ， 并 且 全 局 项 统计 数据 在 所 有 的 分 
布 式 文档 集中 是 一 致 的 ， 那 么 基于 相关 性 分 数 的 合并 就 已 经 足够 用 于 维护 检索 的 有 效 性 了 。 
然而 ， 如 果 分 布 式 文档 集 是 按 语义 划分 或 者 由 不 同 的 组 织 维护 ， 那 么 就 必须 执行 重 排序 。 

Callan [323] 提出 了 根据 加 权 文 档 分 数 对 文档 重 排 序 ， 加 权 文 档 分 数 基于 在 源 选 择 步 
又 时 计算 的 文档 集 相 似 度 。 文 档 集 的 权重 计算 如 下 : 
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w=1+|C| x 


其 中 1C| 是 所 搜索 的 文档 集 个 数 ，s 是 文档 集 的 分 数 ， 而 5 是 全 部 文档 集 的 平均 分 数 。 

合并 排序 列表 最 精确 的 技术 是 使 用 精确 的 全 局 项 统计 数据 。 这 可 以 通过 很 多 方法 完成 。 
首先 ， 如 果 出 于 源 选择 目的 ， 已 经 索引 了 文档 集 ， 那 么 该 索引 将 包含 所 有 分 布 式 文档 集中 的 
全 局 项 统计 数据 。 当 代理 程序 将 查询 分 发 到 远程 的 搜索 服务 器 时 ， 它 可 以 在 查询 中 包含 统计 
数据 。 其 次 ， 服 务 器 在 处 理 过 程 中 可 以 考虑 这 些 统计 数据 ， 生 成 可 以 直接 合并 的 相关 性 分 
数 。 如 果 没 有 文档 集 索 引 ， 那 么 可 以 用 两 轮 通信 来 进行 查询 分 发 。 在 第 一 轮 中 ， 代 理 程序 分 
发 查询 ， 并 从 每 个 搜索 服务 器 收集 文档 集 统 计数 据 。 这 些 统计 数据 由 代理 程序 合并 ， 并 在 第 
二 轮 发 回 搜索 服务 器 。 

最 后 ， 搜 索 协 议 可 以 要 求 搜索 服务 器 返回 全 局 的 查询 项 统计 和 每 篇 文档 的 查询 项 统计 
[664，909]。 然 后 ， 代 理 程 序 可 以 自由 地 选择 查询 项 统计 和 排序 算法 来 重 排序 每 篇 文档 。 最 
终 的 结果 是 一 个 命中 列表 ， 这 个 列表 包含 来 自分 布 式 文档 集 的 文档 ， 这 些 文档 排列 的 顺序 和 
所 有 文档 都 索引 在 单个 文档 集中 的 情况 是 相同 的 。 


10.8 在 对 等 网 络 中 的 检索 


如 果 每 个 端点 是 任意 的 一 台 计算 机 《通常 是 个 人 的 )， 那 么 当 连 接 到 互联 网 时 ， 它 在 不 
可 预测 的 时 刻 加 入 对 等 〈(P2P) 网 络 ， 并 维持 不 定 长 的 时 间 。 这 样 的 网 络 符合 对 等 系统 。 在 
P2P 系统 中 检索 数据 (如 文档 ) 必须 基于 一 个 公共 的 平台 ， 它 充分 利用 分 布 在 互联 网 上 的 资 
源 ， 特 别 是 文件 共享 。 最 早 的 文件 共享 系统 ， 如 Napster, Gnutella 和 Freenet， 其 区 别 在 于 
如 何 找到 端点 数据 。Napster 使 用 中 央 索 引 服务 器 ， 是 最 高 效 的 系统 ， 但 也 是 对 攻击 最 为 脆 
弱 的 一 个 。 另 一 方面 ，Gnutella 使 用 并 不 高 效 但 高 度 容 错 的 泛 洪 〈ftlooding) 查询 模型 。 
Freenet 使 用 一 个 更 加 高 效 的 启发 式 方法 ， 但 是 并 不 保证 能 够 找到 文件 。 

这 个 问题 的 解决 方案 是 分 布 式 散 列表 (Distributed Hash Table, DHT). DHT 是 一 个 
提供 下 列 特性 的 中 间 件 层 ; 

。 分 散 化 :端点 共同 形成 系统 ， 而 没有 任何 中 央 调 度 。 

。 可 扩展 性 ， 即使 有 上 百 万 的 端点 ， 系 统 也 能 平稳 地 工作 ， 就 像 互联 网 中 的 情况 。 

。 容错 性 : 系统 尽 可 能 可 靠 ， 即 使 端点 不 断 地 加 入 、 离 开 和 失效 。 

DHT 使 用 一 个 更 加 结构 化 的 基于 键 (key) 的 路 由 方法 来 实现 Gnutella 和 Freenet 的 
分 散 化 ， 以 及 Napster 的 效率 和 可 保证 的 结果 。 达 到 这 些 目 标的 一 个 关键 想法 是 ， 每 个 端 
点 只 需要 和 网 络 中 其 他 少数 端点 进行 协调 〈 对 于 一 个 目前 有 ”个 端点 的 系统 来 说 ， 通 常 
是 Bllogn) 个 )。 这 减少 了 当 一 个 端点 加 入 或 离开 网 络 时 所 需要 做 的 工作 量 。 些 外，DHT 
必须 处 理 分 布 式 系统 的 一 些 典型 问题 ， 如 负载 均衡 、 数 据 一 致 性 和 性 能 〈 特 别 是 查询 路 由 和 
数据 存储 或 检索 ) 。 

DHT 基于 一 个 抽象 的 数字 键 空 间 ， 其 中 的 键 有 许多 位 ， 可 识别 网 络 上 的 任何 资源 〈 如 
端点 、 文 件 等 )。 那 么 ， 使 用 某 种 划分 方案 ， 键 空间 的 所 有 权 就 在 参与 的 端点 划分 。 于 是 就 
fy ALB (overlay network) 连接 这 些 端 点 ， 使 得 它们 能 够 找到 键 空间 中 任何 给 定 键 的 所 
有 者 。 最 开始 的 四 个 DHT 差不多 是 同时 提出 的 : CAN[1336] 〈 内 容 寻 址 网 络 ) Chord 
[1537]、Pastry[1391] 和 Tapestry[1779]。 它 们 提供 不 同 的 划分 技术 和 路 由 方案 。 如 今 ， 
典型 的 P2P 共享 软件 ， 如 BitTorrent， 都 使 用 这 种 技术 。 

这 些 划分 方案 通常 会 采用 一 致 性 散 列 算法 [875] 的 某 些 变种 。 一 致 性 散 列 定义 了 一 个 


(10-4) 
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EKES KA ð €A ik H Te EE S A a R ath mR RE. AKA, FID 
( 键 ) i 识别 的 端点 将 拥有 那些 根据 6 距离 函数 离 键 i 最 近 的 键 。 一 致 性 散 列 有 一 个 重要 的 性 
质 ， 即 移 除 或 增加 一 个 端点 只 会 改变 那些 有 相 邻 ID 的 端点 所 拥有 的 键 ， 而 其 他 端点 不 受 影 
响 。 因此， 这 减少 了 当 一 个 端点 加 入 或 离开 网 络 时 所 需 做 的 工作 。 然 而 ， 仍 然 需 要 优化 键 空 
间 的 重组 ， 以 支持 高 频率 的 抖动 (churn)® ， 因 为 移动 保存 在 DHT 中 的 数据 将 在 覆盖 网 络 
中 的 邻居 端点 上 产生 密集 的 流量 。 

覆盖 网 络 基 于 一 个 路 由 表 实 现 ， 其 中 每 个 端点 维护 一 个 邻居 端点 的 集合 。 这 些 P2P 链接 
定义 了 某 个 特定 的 网 络 拓扑 ， 形 成 了 覆盖 网 络 。 它 的 主要 基本 性 质 是 ， 每 个 端点 或 者 拥有 特定 
的 键 ,， 或 者 根据 之 前 定义 的 距离 函数 5， 有 一 个 更 靠近 & 的 所 有 者 的 邻居 端点 。 注 意 到 ,5 可 
以 衡量 覆盖 网 络 中 端点 之 间 的 距离 。 有 了 这 个 性 质 ， 如 果 我 们 并 不 拥有 这 个 键 ， 那 么 很 容易 地 
使 用 简单 的 贪心 算法 ， 即 将 消息 转发 给 ID 最 接近 上 的 邻居 端点 ， 将 一 个 消息 路 由 给 的 所 有 
者 。 这 个 算法 保证 了 找到 % 的 时 间 受 覆盖 网 络 的 直径 限制 ， 但 这 并 不 一 定 是 最 优 的 。 

使 用 DHT 来 存储 和 检索 的 典型 过 程 如 下 。 为 了 存储 一 个 给 定 文件 名 的 文档 ， 我 们 在 文 
件 各 上 使 用 散 列 函数 来 生成 键 上 &。 然 后 我 们 将 消息 〈&， 文 档 ) 发 送 给 整个 系统 ， 消 息 将 会 
在 覆盖 网 络 中 的 邻居 端点 闻 转 发 ， 直 到 它 到 达 在 键 空 间 划分 中 指定 的 负责 该 键 上 的 端点 ; 二 
元 组 k, 文档 ) 最 终 就 保存 在 那里 。 为 了 检索 文档 ， 我 们 反 转 这 个 过 程 : 通过 对 文件 名 进 
行 散 列 ， 端 点 可 以 找到 并 发 送 一 个 查询 来 找 出 网 络 中 与 & 相关 的 数据 。 这 个 消息 将 再 次 在 
覆盖 网 络 中 被 传递 到 负责 & 的 端点 ， 反 过 来 它 直 接 将 保存 的 与 该 键 相 关 的 数据 发 回来 。 

检索 的 主要 缺点 是 ，DHT 只 支持 完全 匹配 的 搜索 ， 而 不 是 关键 字 搜 索 (无 论 是 数据 的 
属性 还 是 它 的 内 容 )。 因 此 ， 接 下 来 的 挑战 就 是 将 该 功能 加 和 人 到 基础 系统 中 。 许 多 PP 网 络 
组 织 已 经 研究 了 P2P 信息 检索 ， 特 别 是 全 文 检索 。 在 非 结 构 化 网 络 中 的 搜索 技术 通常 基于 
广播 ， 因 此 会 遭受 高 带宽 消耗 的 问题 。 于 是 , 已 经 提出 了 基于 随机 游 走 的 方法 、 基 于 内 容 的 
路 由 索引 和 层次 化 网 络 的 解决 方案 ， 以 减少 P2P 网 络 中 产生 的 流量 。 

许多 P2P 信息 检索 方法 采用 了 端点 级 的 文档 集 描 述 来 找 出 可 以 处 理 查 询 的 候选 端点 。 
这 些 描述 有 助 于 端点 选择 过 程 ， 以 及 接 下 来 在 所 选 端点 上 进行 的 文档 级 别 的 检索 。 通 常会 使 
用 一 些 资源 选择 算法 ， 如 CORI[320] 或 基于 Kullback-Leibler 距离 的 算法 [1731]， 来 选择 
包含 与 查询 相关 的 大 量 文档 的 一 小 部 分 资源 。 根 据 它们 返回 相关 文档 的 可 能 性 对 资源 进行 排 
FF, 选择 排名 最 高 的 资源 。 

例如 ，[1053，1054] 所 描述 的 联合 搜索 系统 使 用 了 一 个 层次 化 的 P2P 网 络 结构 。 这 个 
P2P 网 络 由 多 个 枢纽 (hub) 组 成 ， 它 们 根据 聚 类 算法 连接 到 叶子 端点 。 查 询 被 提交 到 一 个 
或 多 个 初始 选择 的 枢纽 端点 。 枢 纽 使 用 它 的 资源 选择 算法 将 查询 发 送 到 它 的 叶子 端点 上 ， 并 
根据 其 他 邻近 枢纽 的 描述 ， 发 送 到 这 些 端点 上 。 将 一 个 生存 时 间 Ctimeto-live, TTL) 计数 
器 加 到 每 个 查询 上 ， 用 来 限制 资源 使 用 。 叶 子 端点 在 它们 本 地 的 文档 集 上 执行 查询 ， 并 将 结 
果 传 回 查询 发 送 者 。 枢 纽 执行 结果 合并 算法 ， 聚 合 来 自 不 同 叶子 端点 的 答案 。[1055] 改进 
了 资源 选择 算法 ， 它 对 历史 用 户 行为 建 模 ， 从 而 将 搜索 导向 网 络 中 合适 的 那 部 分 。 

MinervaL179，180] 维护 一 个 全 局 索引 ， 索 引 中 有 结构 化 覆盖 的 端点 选择 统计 数据 ， 用 
于 帮助 端点 选择 过 程 。 全 局 索引 只 保存 经 过 压缩 和 聚合 的 、 关 于 端点 本 地 索引 的 元 信息 ， 这 
些 元 信息 是 用 户 愿 意 公 开 的 。 根 据 端点 公开 的 关于 每 个 查询 项 的 元 信息 ， 初 始 查询 者 选择 一 
些 最 有 希望 的 端点 。 接 着 ， 它 将 完整 的 查询 转发 给 所 选择 的 端点 ， 它 们 在 本 地 执行 该 查询 。 


日 ”端点 加 入 、 离 开 或 失效 的 频率 。 


[441] 
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Minervaco[1126] 是 一 个 P2P 信息 检索 系统 ， 它 基于 一 个 保 序 的 DHT。 它 依赖 于 项 索 
引 网 络 (Term Index Network，TIN) ， 其 中 索引 项 的 全 局 倒 排 索引 保存 在 多 个 端点 上 。 查 
询 通过 一 个 涉及 TIN 内 外 端点 的 并 行 top-& 算法 来 处 理 。 

[1124] 已 经 发 现 了 索引 项 共 现 统计 的 重要 性 。 在 这 个 方法 中 ,索引 项 的 共 现 信息 有 助 
于 识别 出 最 有 可 能 的 端点 级 别 的 索引 条 目 ， 该 条 目 与 索引 项 的 组 合 相 联系 。 作 者 表明 ， 这 样 
的 技术 极 大 地 改善 了 端点 选择 过 程 ， 以 及 最 终 的 检索 性 能 。[1792] 讨论 了 在 出 版 和 订阅 场 
景 中 使 用 关键 词 的 相关 性 统计 。 

与 端点 级 别 解 决 方案 相反 ， 文 档 级 的 索引 方法 ， 由 于 其 更 好 的 索引 颗粒 度 ， 有 可 能 产生 
更 好 的 检索 质量 ， 但 是 需要 更 高 的 索引 维护 代价 。 这 样 的 方法 通常 使 用 项 划分 方案 ， 将 整个 
索引 分 布 在 一 个 结构 化 的 PP 网 络 上 。 例 如 ， 一 个 维护 项 划分 全 局 索引 的 DHT 提供 了 一 个 
直接 的 P2P 信息 检索 方案 ， 通 过 将 查询 项 散 列 为 P2P 的 键 解决 查找 单个 查询 项 的 问题 。 假 
设 分 布 式 索 引 保存 了 文档 集中 所 有 项 的 记录 列表 ， 那 么 就 可 以 通过 对 所 有 查询 项 的 沁 录 列表 
交集 来 处 理 多 查询 项 的 查询 。 然 而 ， 这 个 方法 面临 严重 的 可 扩展 性 问题 ， 它 是 由 对 大 型 记录 
列表 求 交 集 所 需 的 流量 代价 所 造成 的 。 因 此 ， 已 经 提出 了 一 些 方法 来 解决 这 个 问题 。 

因为 大 型 记录 列表 是 这 些 解决 方案 主要 关注 的 问题 ， 所 以 [1348] 和 [1541] 已 经 提出 
了 top-k CREK., Bloom filter[213] 和 缓存 等 作为 减少 多 项 查询 的 搜索 代价 的 潜在 技 
术 。 事 实 上 ,， 据 1362] 报告 ， 通 过 将 最 优 的 Bloom filter 设置 应 用 到 基于 DHT 的 全 文 检 
索 ， 能 减少 73% 的 流量 。 然 而 ，L1774] 的 研究 显示 ， 即 使 能 组 合 一 些 成 熟 的 协议 来 减少 检 
索 代 价 ， 单 一 项 索引 在 实际 中 并 不 能 扩展 到 Web. 

为 了 避免 分 布 式 地 对 大 型 记录 列表 求 交 集 ， 研 究 人 员 提 出 了 多 个 依靠 对 多 项 组 合 建立 索 
引 的 方法 。 通 过 系统 化 地 将 大 型 记录 列表 截 成 固定 的 大 小 ，HDK 方法 (Highly Discrimina- 
tive Keys) [1285] 的 索引 能 减少 检索 的 流量 ， 同 时 通过 对 选择 的 项 组 合 建立 索引 ， 可 以 补 
偿 所 导致 的 信息 竺 失 。 因 此 ， 索 引 包 含 了 更 多 的 条 目 ， 但 是 每 个 条 目 与 更 短 的 记录 列表 相 联 
系 。 然 而 ， 索 引 条 目的 数量 可 能 仍然 变 得 很 大 ， 所 以 一 个 叫做 查询 驱动 索引 (Query-Driven 
Indexing) 的 方案 就 被 担 了 出 来 11488] 一 一 它 只 索引 那些 当前 在 用 户 查 询 中 常见 的 项 组 
合 ， 与 HDK 方法 相 比 ， 它 能 将 索引 的 大 小 减 小 几 个 数量 级 ， 而 代价 只 是 检索 质量 的 微小 损 
失 。 类 似 地 ， 通 过 缓存 多 个 项 查询 的 完整 结果 ， 分 布 式 缓存 表 (Distributed Cache Table, 
DCT) 方法 [1486] 在 运行 时 生成 索引 (或 分 布 式 缓存 )。 

受 [542] 的 算法 启发 的 top-k 查询 处 理 方法 已 经 被 许多 PP 信息 检索 方法 所 采用 ， 用 
来 解决 大 量 带宽 消耗 的 问题 。 主 要 的 想法 是 ， 尽 可 能 早 地 结束 对 查询 的 处 理 ， 同 时 保证 (或 
提供 概率 保证 目前 得 到 的 排名 前 的 结果 是 正确 的 。 当 使 用 倒 排 索引 处 理 多 个 项 查询 时 ， 
如 果 只 需要 交集 的 前 & 上 个， 那么 就 没有 必要 扫描 整个 记录 列表 。 相 反 ， 记 录 列 表 可 以 根据 分 
数 排序 ， 并 且 有 可 能 通过 只 查看 在 记录 列表 靠 前 部 分 的 文档 就 可 以 得 到 排名 前 & 的 查询 结 
果 。 提 早 终结 查询 对 于 分 布 式 记录 列表 求 交集 是 特别 有 用 的 ， 因 为 它 有 减少 带宽 消耗 的 直接 
效果 。 用 于 P2P 网 络 的 top-k 查询 处 理 算法 包括 [1541] 提出 的 分 布 式 剪 枝 协 议 (Distribu- 
ted Pruning Protocol, DPP), [329] #2 4 6 = Bt B — & th (Three-Phase Uniform 
Threshold, TPUT) 算法 和 [1774] 提出 的 一 组 带 有 Bloom filter 优化 的 分 布 式 阅 值 算法 
(distributed threshold algorithm, DTA), 

[1125] 提出 了 一 族 近似 top-k 查询 处 理 算法 ， 叫 做 KLEE. KLEE 算法 极 大 地 减少 了 
查询 处 理 时 的 带宽 消耗 ， 只 对 排名 前 & 的 结果 质量 造成 小 的 损失 。 每 个 端点 维护 了 一 个 直方 
图 ， 它 对 索引 中 的 分 数 分 布 进 行 编码 。 直 方 图 中 每 个 单元 保存 一 个 概要 : 一 个 基于 Bloom 
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filter 的 结构 ， 表 示 分 数落 入 该 单元 的 文档 集合 中 。 这 个 数据 在 一 个 四 步 的 近似 查询 执行 算 
法 中 使 用 ， 实 验 表 明 ， 根 据 测 试 集 的 不 同 ， 它 耗费 的 流量 比 TPUT 最 多 减少 一 个 数量 级 ， 
同时 仍 保 留 大 约 80 站 一 90 站 的 召回 率 。 

[1048] 的 方法 建议 通过 广播 来 补充 基于 索引 的 查询 处 理 ， 以 避免 在 全 局 索引 中 维护 大 
型 记录 列表 。 作 者 建议 使 用 泛 洪 机 制 来 回答 热门 的 查询 ， 而 只 有 罕见 的 查询 才 依 靠 索引 。 有 
趣 的 是 ， 这 个 方法 与 基于 缓存 的 P2P 系统 相反 。 

[1464] 提出 了 一 个 用 于 关键 词 搜索 的 混合 索引 划分 方案 。 所 有 端点 聚 成 组 ， 该 索引 方案 
在 组 内 采用 项 划分 ， 但 是 在 组 之 间 采 用 文档 划分 。 因 此 ， 必 须 把 每 个 查询 广播 到 所 有 的 组 ， 但 
是 在 每 个 组 内 只 有 一 些 端点 执行 了 实际 的 查询 操作 。 因 为 组 内 的 文档 集 大 小 是 有 限 的 ， 所 以 ， 
与 标准 的 PP 全 局 索引 方法 相 比 ， 这 个 方法 降低 了 时 延 ， 高 效 地 分 散 了 带宽 消耗 。 

尽管 大 多 数 方法 采用 端点 级 或 文档 级 的 索引 颗粒 度 ， (A [1203] 提出 了 一 个 专注 于 平 
衡 索 引 和 查询 处 理 代价 的 适应 性 方案 。 对 于 单个 端点 ， 本 地 文档 组 以 项 集 的 形式 创建 和 展 
示 ， 而 项 集 通过 索引 来 管理 。 因 此 ， 这 样 一 个 组 级 别 的 索引 策略 是 这 两 种 案 引 技术 的 泛 化 : 
端点 级 (每 个 端点 一 个 组 ) 和 文档 级 〈 每 个 组 一 篇 文档 ) 。 作 者 提出 了 一 个 概率 模型 来 估计 
与 给 定数 目的 组 相关 的 代价 。 


10.9 趋势 和 研究 问题 


对 于 解决 与 当前 规模 庞大 的 、 不 断 增 长 的 在 线 文 档 集 相关 的 性 能 和 扩展 问题 ， 并 行 计算 有 
着 很 大 的 潜力 。 在 本 章 中 ， 我 们 调研 了 一 些 利用 现代 并 行 架 构 的 技术 。 在 并 行 硬件 方面 的 趋势 
是 通用 MIMD 机 器 的 发 展 。 与 该 趋势 一 致 的 是 现代 编程 语言 中 出 现 的 一 些 特性 ， 如 线程 和 相 
关 的 同步 结构 ， 它 们 极 大 地 方便 了 在 这 些 架 构 上 的 程序 开发 任务 。 尽 管 有 这 样 的 趋势 ， 但 在 
MIMD 机 器 上 的 并 行 信 息 检索 算法 研究 相对 开始 得 较 晚 ， 只 获取 了 很 少 的 标准 结果 。 

在 并 行 信息 检索 方面 的 很 多 早期 工作 都 是 关注 于 在 SIMD 架构 上 支持 签名 文件 。 尽 管 
SIMD 机 器 很 适合 处 理 签名 文件 ,但 是 SIMD 机 器 和 签名 文件 在 它们 各 自 的 领域 中 都 已 失去 
“ER”, SIMD 机 器 很 难 进行 编程 ， 并 且 只 适合 相对 较 小 的 一 类 问题 。 如 9. 3 节 所 指出 的 ， 
签名 文件 对 文档 排序 支持 较 差 ， 只 在 很 少 一些 方 面 胜 过 倒 排 文件 ， 如 功能 性 、 索 引 大 小 和 处 
理 速度 [1799]. 

分 布 式 计算 可 以 看 成 是 MIMD 计算 的 一 种 形式 ,但 它 有 着 相对 较 高 的 处 理 器 间 通 信和 代价 。 
然而 ， 大 多 数 在 本 章 讨论 的 并 行 信息 检索 算法 都 有 一 个 高 的 计算 /通信 比率 ， 并 且 很 适合 对 称 
多 处 理 器 和 分 布 式 实现 。 实 际 上 ， 通 过 对 处 理 器 间 通 信使 用 合适 的 抽象 层 ， 我 们 可 以 方便 地 实 
现在 多 处 理 器 和 分 布 式 架 构 上 都 能 工作 得 很 好 的 并 行 系统 ， 并 且 只 需要 相对 较 少 的 修改 。 

在 并 行 和 分 布 式 文本 检索 领域 中 仍然 有 很 多 挑战 。 尽 管 本 章 已 经 提出 了 一 些 方法 ， 但 还 没有 
哪 种 方法 能 够 脱颖而出 ， 成 为 建立 并 行 或 分 布 式 信息 检索 系统 的 确定 方案 。 除 了 继续 为 基于 倒 排 
索引 和 后 缀 数组 的 系统 开发 和 研究 并 行 索 引 和 搜索 技术 之 外 ， 有 两 个 特定 的 挑战 引 人 注 目 。 

第 一 个 挑战 是 在 大 型 文档 集 上 评价 检索 效果 。 尽 管 我 们 可 以 容易 地 评价 给 定 并 行 系统 所 
取得 的 加 速 比 ， 但 是 评价 系统 结果 质量 就 是 另外 一 回 事 了 。 当 然 ， 这 个 挑战 并 不 只 是 在 并 行 
信息 检索 系统 中 存在 。 大 型 文档 集会 造成 一 些 问 题 ， 特 别 是 在 对 查询 生成 相关 性 判断 时 。 在 
文本 检索 会 议 (Text REtrieval Conference, TREC) 中 使 用 的 聚合 (pooling) 技术 可 能 也 
行 不 通 。 聚 合 技术 合并 来 自 多 个 系统 的 排序 结果 列表 ， 产 生 相 对 较 小 的 文档 集 ， 用 于 人 工 评 
价 。 它 的 假设 是 ， 即 使 不 是 全 部 ， 但 大 多 数 相 关 文 档 都 包含 在 这 个 聚合 中 。 对 于 大 的 文档 
集 ， 这 个 假设 可 能 并 不 成 立 。 而 且 ， 并 不 清楚 在 这 样 的 情况 下 召回 率 有 多 重要 。 


443 


444 


326 。 第 10 章 并 行 与 分 布 式 信息 检索 


第 二 个 重要 的 挑战 是 互 操作 性 ,或 者 在 异 质 组 件 的 基础 上 建立 分 布 式 信 息 检 索 系 统 。 从 
Web 上 元 搜索 服务 的 流行 性 来 看 ， 对 由 异 质 的 后 端 搜索 服务 器 组 成 的 分 布 式 系统 的 需求 是 
显而易见 的 。 然 而 ， 因 为 缺少 来 自 后 端 搜索 服务 器 的 项 统计 数据 ， 所 以 这 些 系 统 的 功能 性 受 
到 限制 ， 不 能 进行 精确 的 重 排序 和 结果 列表 合并 。 而 且 ， 每 个 搜索 服务 器 采用 定制 的 查询 语 
言 ， 当 查询 被 翻译 成 后 端 查 询 语言 时 ， 它 的 原始 目的 就 有 可 能 丢失 。STARTSL664] 等 一 些 
标准 化 协议 尝试 解决 这 些 问题 ， 但 是 需要 整个 搜索 业界 都 遵照 这 些 标准 。 

第 三 个 挑战 是 用 于 设计 大 型 信息 检索 系统 的 分 析 模 型 。Chowdhury 和 Pass[381] 介绍 
了 一 个 基于 排队 论 的 方法 ， 用 来 在 吞吐 量 、 响 应 时 间 和 使 用 率 等 操作 需求 方面 对 搜索 系统 的 
架构 进行 建 模 和 分 析 。 最 近 ，Badue 等 人 [84] 提出 了 一 个 用 于 设计 垂直 搜索 引擎 的 容量 
模型 。 

目前 ， 建 立 分 布 式 索引 并 不 属于 特别 活跃 的 研究 领域 ， 也 许 是 因为 现 有 的 技术 已 经 在 实 
际 中 取得 了 好 的 结果 。 但 据 我 们 所 知 ， 这 些 技术 尚未 在 大 型 文档 集 上 进行 广泛 测试 ， 而 验证 
结果 是 否 满足 预期 是 一 个 很 重要 的 问题 。 


10. 10 文献 讨论 


对 并 行 和 分 布 式 计算 的 彻底 的 概览 可 以 在 《Parallel and Distributed Computing Hand- 
book》《〈 并 行 和 分 布 式 计 算 手 册 ) [1800] 中 找到 ， 它 由 Albert Zomaya 编辑 。 关 于 并 行 和 分 
布 式 信息 系统 的 很 多 有 趣 的 研究 论文 可 以 在 IEEE (International Conference on Parallel and 
Distributed Information System》 会 议论 文集 上 看 到 。 

Stanfill 等 人 [1528, 1530, 1531] 进行 了 很 多 早期 的 工作 ,使 用 大 规模 并 行 硬件 (特别 是 
Connection Machine) 来 解决 信息 检索 问题 。Pogue 和 Willetl1287] 也 尝试 了 大 规模 并 行 信息 检 
索 ， 使 用 的 是 ICL 分 布 式 阵列 处 理 器 (Distributed Array Processor), Salton 和 Buckley[1409 |] 
对 并 行 信息 检索 的 早期 实现 提出 了 一 些 有 趣 的 评论 ， 质 疑 了 它们 的 速度 和 有 效 性 。 

Lu 等 人 [1059] 分 析 了 如 何 恰当 地 扩展 SMP 硬件 ， 用 于 并 行 信息 检索 ， 并 且 强 调 了 恰当 
的 硬件 平衡 的 重要 性 。Tbmasic 和 Garcia-MolinaL1588，1589，1590]、Jeong 和 Omiecinski[833 | 
以 及 Ribeiro-Neto 和 Barbosa[1349] 研究 了 并 行 和 分 布 式 倒 排 索引 的 实现 技术 。 

Navarro 等 人 [1183] 尝试 了 用 于 后 级 数组 构建 和 搜索 的 并 行 和 分 布 式 算法 。 对 于 PT 
处 理 器 和 总 大 小 为 n 的 文本 ， 他 们 得 到 的 平均 索引 时 间 包 含 了 O(n/Plogn) 的 CPU 时 间 和 

445) O/P) 的 通信 有 时间。 . 

Stanfill[1529] 、Panagopoulos 和 Faloutsos[1239] 分 析 了 CM-2 (SIMD 架构 ) 中 不 同 
签名 文件 的 性 能 。 

Macleod 等 人 [1072] 提供 了 一 些 用 于 构建 联合 信息 检索 系统 的 策略 和 建议 。Cahoon 
和 McKinley[309] 分 析 了 INQUERY 分 布 式 信息 检索 系统 的 性 能 。 

如 下 文献 对 源 选 择 和 文档 集合 并 问题 进行 了 研究 ，Gravano 等 人 使 用 的 GIOSS 系统 
[667, 666]、Voorhees[1652 |]、Callan[323 ]、Moffat 和 Zobel[1152], Viles 和 French 
[1640]， 以 及 其 他 [320, 437, 438, 515, 1053, 1300, 1473, 1475, 1730, 1760, 1797]. 

ERE? 年 中 ， 我 们 已 经 见证 了 不 同 P2P 检索 系统 的 快速 发 展 ， 如 [462, 510, 1056, 
1330，1559，1558，1767，1788，1789]j， 它 们 的 基本 区 别 在 于 ， 在 如 何 借鉴 传统 的 信息 检 
RER., Æ DHT 上 设计 一 个 更 加 强大 的 检索 层 。 最 近 ， 有 些 更 加 具体 的 方向 也 得 到 了 提 
高 ， 包 括 P2P 检索 平台 [4]、 索 引 算 法 [1203]， 以 及 十 分 重要 的 如 何 分 析 和 比较 不 同 的 方 

法 [1198，421]。 关 于 P2P 检索 比较 好 的 综述 是 (1766, 1358], 
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11.1 介绍 


Tim Berners-Lee 在 1989 年 提出 了 概念 性 Web， 然 后 在 1990 年 12 月 成 功 地 验证 了 
Web[192]， 并 在 1991 年 年 初 发 布 了 第 一 个 Web 服务 器 。 它 称 为 万 维 网 (World Wide 
Web)， 但 它 在 本 书 中 被 简单 地 称 为 Web。 在 那 时 ， 没 有 人 能 够 想象 到 Web 的 影响 。 在 海量 
数据 和 信息 呈 指 数 级 增长 的 驱动 下 ，Web 不 断 地 发 展 ， 各 种 各 样 的 日 常任 务 ， 如 电子 商务 、 
银行 、 研 究 、 娱 乐 ， 以 及 个 人 通信 都 无 法 在 Web 之 外 便捷 和 低 代价 地 完成 。 

Web 中 可 用 的 文本 数据 的 数量 据 估 计 是 PB 级 的 。 另 外 ， 图 像 、 音 频 和 视频 等 其 他 媒体 
也 是 海量 的 ， 规 模 甚 至 更 大 。 这 样 ，Web 可 以 被 看 成 一 个 非常 大 的 、 公 开 的 、 非 结构 化 的 ， 
但 却 无 所 不 在 的 数据 库 ， 这 就 需要 有 效 的 Web 信息 管理 、 检 索 以 及 过 滤 的 工具 。 所 以 ， 
Web 搜索 引擎 成 为 了 互联 网 中 最 常用 的 工具 之 一 。 另 外 ， 信 息 发 现在 大 规模 企业 网 中 也 变 
得 更 为 重要 ， 用 户 可 能 需要 抽取 或 推断 出 新 的 信息 来 支持 某 个 决策 过 程 ， 这 个 任务 称 为 数据 
挖掘 〈 或 针对 Web 的 特定 情况 BA Web 挖掘 ) 。 

大 规模 的 可 用 数据 加 上 快 节奏 的 变化 ， 使 得 从 Web 上 搜索 相关 信息 变 得 非常 困难 。 为 
了 应 付 快 节奏 的 变化 ， 高 效 的 网 络 疏 到 变 得 非常 重要 〈 见 第 12H). Bob, RAMA MES 
也 是 相关 的 ， 如 信息 抽取 和 Web 数据 挖掘 。 

尽管 总 体 来 说 最 近 在 图 像 以 及 非 文本 数据 搜索 中 取得 了 一 些 进 步 ， 但 现存 的 技术 不 能 很 
好 地 应 用 在 Web 上 ( 见 第 14 章 ) 。 因 此 ， 在 文本 上 的 搜索 一 直 是 最 流行 的 热门 研究 课题 。 
大 多 数 搜索 引擎 位 于 美国 ， 关 注 于 英文 文档 ， 但 是 还 存在 一 些 重要 的 非 美国 的 搜索 引擎 ， 为 
特定 的 语言 而 设计 ， 可 以 处 理 各 种 文字 体系 和 字母 表 ， 如 汉字 或 西里 尔 字 母 。 这 些 搜 索引 人 擎 
的 例子 包括 中 国 的 百度 、 俄 国 的 Yandex 和 韩国 的 Naver, 

我 们 也 注意 到 搜索 继续 被 “句法 ” (syntacetic) 范式 主导 着 ， 包 含 用 户 指 定 词 语 或 模式 
的 文档 会 被 检索 出 来 。 如 第 3 章 讨论 的 ， 这 种 词语 或 模式 不 一 定 能 反映 文本 的 内 在 语义 。 句 
法 搜索 的 一 种 替代 方法 是 对 文本 进行 自然 语言 分 析 。 自 然 语 言 的 前 期 处 理 和 抽取 文本 语义 的 
技术 已 经 出 现 一 段 时 间 了 ， 但 它们 还 不 是 非常 有 效 。 实 际 上 ， 除 了 最 近 提 出 的 一 些 快速 的 实 
体 抽取 工具 外 [79]， 这 些 技术 代价 很 高 以 至 于 没 办 法 应 用 于 大 规模 数据 [86]。 另 外 ， 在 大 
多 数 情况 下 ， 它 们 只 对 良好 书写 和 结构 化 的 文本 有 效 [1765]， 并 需要 结合 同义词 典 或 者 其 
他 上 下 文 信息 ， 如 特定 的 语言 领域 。 对 于 结构 化 数据 检索 更 加 详细 的 讨论 见 第 13 章 。 

为 了 简化 这 个 问题 ， 搜 索引 擎 的 设计 者 做 出 了 关于 Web 的 若干 假设 ， 但 它们 并 不 总 是 
成 立 的 。 关 于 数据 ， 他 们 隐 含 假设 一 个 包含 网 页 或 者 另 一 种 数据 的 物理 文件 是 一 个 单一 的 逻 
辑 文档 。 然 而 ， 每 个 网 页 可 能 有 多 个 逻辑 文档 (例如 一 份 报纸 ) 或 者 一 个 文档 包含 很 多 文件 
(例如 一 篇 学 位 论文 ;。 至 于 用 户 的 需要 ， 他 们 最 初 假设 用 户 的 主要 目标 是 直接 的 信息 搜寻 ， 
而 且 这 些 需求 的 多 样 性 比 他 们 真正 的 需求 更 小 。 然 而 ， 就 像 我 们 在 第 7 章 讨论 的 那样 ， 这 两 


O 企业 网 指 在 组 织 内 部 建立 的 计算 机 网 络 ， 可 以 与 或 不 与 因特网 相连 。 
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个 假设 不 再 成 立 。 

探索 Web 基本 上 有 两 种 主要 的 形式 。 第 一 种 是 向 索引 了 部 分 Web 文档 的 搜索 引擎 提出 
一 个 基于 词 的 查询 。 第 二 种 是 浏览 Web， 它 可 以 看 成 是 跟随 超 链接 的 连续 搜索 过 程 ， 例 如 
在 将 Web 文档 按照 主题 分 类 的 Web 目录 中 。 还 存在 着 其 他 的 方法 ， 例 如 利用 Web 的 超 链 
接 ” 结构， 尽管 它们 还 不 是 全 部 可 用 ， 可 能 不 是 很 有 名 ， 也 可 能 更 复杂 得 多 。 我 们 在 这 里 涉 
及 Web 搜索 的 全 部 形式 ， 更 强调 前 两 种 。 

本 章 按 如 下 方式 组 织 。 首 先 讨论 搜索 Web 的 挑战 ， 然 后 通过 介绍 Web 的 特点 ， 方 便 读 
者 更 好 地 理解 问题 的 复杂 性 。 接 下 来 详细 讨论 搜索 引擎 的 架构 、 排 序 模 型 ， 以 及 Web 数据 
管理 。 然 后 充分 地 探讨 了 用 户 一 般 如 何 与 搜索 引擎 交互 的 相关 问题 。 接 下 来 介绍 浏览 ， 将 其 
与 搜索 做 比较 ， 还 讨论 浏览 之 外 的 方法 。 最 后 对 一 些 和 Web 搜索 相关 的 问题 和 挑战 进行 总 
结 ， 例 如 Web 挖掘、 计算 广告 、 元 搜索 、 目 前 的 趋势 和 研究 问题 。 因 为 Web 研究 是 一 个 非 
常 动态 的 领域 ,我们 可 能 漏 掉 了 一 些 重 要 的 工作 ， 在 这 里 提前 向 读者 道歉 。 

读者 应 该 意识 到 本 书 付 印 时 ， 或 者 从 书架 上 被 挑 中 时 ， 以 及 在 随后 几 年 阅读 时 ， 书 中 描 
述 的 很 多 特征 将 会 过 时 ”， 引 用 的 很 多 网 址 有 可 能 变 成 破碎 的 链接 ， 或 者 它们 的 内 容 已 经 改 
变 。 在 极端 的 情况 下 ， 有 些 主要 的 搜索 引擎 完全 消失 了 ,或 者 一 些 新 的 已 经 出 现 。 即 使 这 
样 ， 我 们 也 希望 这 里 描述 的 基本 原则 在 未 来 几 年 都 能 保持 稳定 ， 为 有 兴趣 的 读者 提供 搜索 引 
擎 背后 的 基本 科学 知识 。 


11.2 一 个 有 挑战 性 的 问题 

现在 让 我 们 考虑 Web 搜索 提出 的 主要 挑战 。 我 们 可 以 把 它们 划分 为 两 类 : 和 数据 本 身 
相关 的 问题 ， 我 们 称 为 以 数据 为 中 心 的 问题 ， 以 及 用 户 和 用 户 与 数据 交互 的 问题 ， 我 们 称 为 
以 交互 为 中 心 的 问题 。 以 数据 为 中 心 的 问题 多 种 多 样 ， 包 括 : 

。 分 布 式 数据 由 于 Web 的 内 在 本 质 ， 数 据 跨 越 大量 的 计算 机 和 平台 。 这 些 计算 机 都 
是 相互 连接 的 ， 没 有 预定 义 的 拓扑 结构 ， 另 外 在 带宽 可 用 性 和 网 络 互联 的 可 靠 性 方 
面 也 千差万别 。 

。 高 比例 的 不 稳定 数据 ”由 于 互联 网 的 动态 性 ， 新 的 计算 机 和 数据 很 容易 增加 或 删 减 。 
例如 ， 早 期 的 估计 表明 50% 的 Web 在 几 个 月 中 发 生变 化 [859, 793, 257, 373, 
561，1215，495j。 搜 索引 擎 也 面临 着 悬垂 的 〈 或 破碎 的 ) 链接 ， 以 及 当 域 或 文件 名 
变化 或 消失 时 的 重 定位 问题 。 

。 大 容量 的 数据 Web 快速 发 展 带 来 的 扩展 性 问题 很 难 解 决 ， 另 外 在 实践 中 动态 网 页 
是 无 限 的 。 

。 非 结 构 化 和 元 余 的 数据 ”Web 并 非 如 有 些 人 认为 的 那样 ， 是 一 个 巨大 的 分 布 式 超 文 
本 系统 ， 因 为 它 不 遵循 严格 的 内 在 基本 概念 模型 以 保证 其 一 致 性 。 事 实 上 ，Web 无 论 
在 全 局 上 还 是 在 个 体 的 HTML 页 面 级别 上 ， 都 没有 很 好 地 结构 化 。 在 最 好 的 情况 下 ， 
HTML 页 面 被 认为 是 半 结 构 化 数据 。 此 外 ， 大 量 的 Web 数据 或 者 松散 地 《如 同一 个 
新 闻 机 构 创建 的 新 闻 )， 或 者 严格 地 (通过 镜像 或 复制 ) BR. KA 30% 的 网 页 是 
GEODO 重复 的 [269，1467，278，559，560，120]。 语 义 元 余 可 能 就 更 多 了 。 

。 数据 的 质量 Web 可 以 被 视 为 一 个 新 兴 的 出 版 媒体 。 然 而 ， 在 大 多 数 情况 下 ， 却 没 








晶 ” 我 们 用 超 链接 或 链接 代表 从 一 个 网 页 到 另 一 个 网 页 的 指针 〔 锚 )。 
© 见 之 前 的 关于 Web 快速 发 展 的 评论 。 
O ”考虑 当 本 书 第 1 版 出 版 后 Excite 引擎 的 情况 。 
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有 编辑 的 过 程 。 所以， 数据 可 能 是 不 准确 的 、 完 全 错误 的 、 过 时 的 、 无 效 的 、 书 写 
不 好 的 ; 或 者 在 许多 情况 下 ， 充满 了 错误 ,无论 是 无 意 的 (错别字 、 语 法 错误 ， 
OCR 错误 ) 还 是 有 意 的 。 错 别 字 和 错误 ， 尤 其 是 外 国人 名 字 的 错误 是 非常 常见 的 。 

。 ARAR ”数据 不 仅 来 源 于 各 种 媒体 类 型 ， 每 种 类 型 来 自 不 同 的 形式 ， 而 且 它 也 通 
过 不 同 语言 进行 表达 ， 这 些 语言 有 各 种 字母 表 和 文字 体系 〈 如 印度 )， 字 母 表 也 可 能 
会 相当 大 〈 例 如 汉语 或 日 本 汉字 ) 。 

很 多 挑战 ， 如 数据 类 型 的 多 样 性 以 及 较 差 的 数据 质量 ， 都 无 法 通过 制定 更 好 的 算法 和 软 
件 得 到 解决 ， 这 将 长 期 成 为 事实 ， 因 为 它们 是 人 性 所 固有 的 困难 和 问题 〈 例 如 语言 
多 样 性 )。 

第 二 类 挑战 是 当 用 户 和 搜索 系统 交互 时 所 面 对 的 问题 。 以 交互 为 中 心 的 问题 包括 两 种 : 

。 表达 查询 人们 的 需求 或 者 所 要 完成 的 任务 通常 都 不 容易 以 “查询 ”的 形式 表达 。 

即使 以 更 自然 的 方式 表达 查询 ， 也 只 是 信息 需求 的 一 种 反映 ， 因 此 ， 按 照 定义 , EC 
是 不 完善 的 。 这 种 现象 可 以 比 做 “柏拉图 的 洞穴 ”"， 那 里 的 影子 被 误 认为 现实 。 

。 解释 结果 ”即便 用 户 能 够 完美 地 表达 查询 ， 但 管 案 * 可 能 也 会 被 拆 成 几 千 其 至 几 百 
万 的 网 页 ， 或 者 根本 不 存在 。 在 这 种 情况 下 ， 有 很 多 问题 需要 解决 。 例 如 ， 如 何 处 
理 很 大 的 管 案 集 ? 如 何 对 结果 排序 ? 如 何 选择 用 户 真正 感 兴趣 的 文档 ? 甚至 在 只 有 
一 个 候选 文档 的 情况 下 ， 文 档 本 身 可 能 非常 大 ， 如 何 高 效 地 浏览 文档 ? 

对 于 Web 所 带 来 的 内 在 问题 ， 用 户 最 主要 的 挑战 是 想 出 好 的 查询 提交 给 搜索 系统 ， 它 
将 生成 可 管理 的 、 相 关 的 答案 。 搜 索 系 统 主要 的 挑战 是 快速 地 搜索 和 给 出 相关 的 答案 ， 即 使 
对 于 表示 得 较 差 的 查询 ， 因 为 这 是 Web 中 常见 的 情况 ( 见 7. 2. 1 47). 

在 Web 当前 的 状态 下 ， 搜 索引 擎 需要 处 理 纯 HTML 和 文本 ， 以 及 其 他 数据 类 型 ， 如 多 
媒体 对 象 、XML 数据 和 相关 的 语义 信息 ， 这 些 数据 能 够 动态 地 产生 ， 本 质 上 更 复杂 。 为 了 
将 这 个 区 别 描 述 得 更 清晰 ， 在 本 章 其 余 的 部 分 ， 我 们 用 “网 页 ”来 表示 HTML IA 
6.4.2 节 )， 并 用 “Web 文档 ”来 表示 Web 中 所 有 可 用 的 数据 类 型 。 

如 果 语 义 网 克服 了 它 所 有 的 内 在 的 社会 化 问题 ， 成 为 了 现实 ， 那 么 一 个 基于 XML 的 、 
带 有 标准 的 语义 元 数据 和 模式 的 Web 也 可 能 会 成 为 现实 。 在 这 个 假想 的 世界 中 ,信息 检索 
变 得 更 简单 ， 甚 至 多 媒体 搜索 可 以 被 简化 。 垃 圾 可 以 更 容易 地 消除 ， 因 为 可 以 更 容易 地 识别 
出 好 内 容 。 另 一 方面 ， 新 的 搜索 问题 可 能 会 出 现 ， 例 如 极 大 规模 的 XML 处 理 和 检索 以 及 在 
结构 化 数据 上 的 Web 挖掘。 


11.3 Web 


在 本 节 中 ， 我 们 讨论 Web 的 主要 特点 ， 以 及 描述 其 内 容 和 结构 的 数学 模型 。 已 经 有 很 
多 研究 调查 了 某 些 特定 国家 的 Web， 研 究 表明 很 多 Web 子 集 的 属性 和 特点 在 全 球 Web 的 范 
转 内 也 是 有 效 的 〈 且 适用 的 ) [97j。 尽 管 这 样 ， 我 们 仍然 要 对 Web 及 其 动态 性 有 充分 的 理 
fæ [794, 258, 1361, 98, 1011, 1010, 890]. 


11.3.1 特性 
由 于 其 高 度 的 动态 性 ， 评 价 Web 是 一 个 困难 的 任务 。 在 本 书写 作 的 时 候 (2010 年 4 月 


全 ”有 时 我 们 会 用 “答案 ”来 表示 给 定 查询 的 答案 集合 。 上 下 文 会 清晰 地 指示 ， 对 于 自然 语言 的 问题 ， 我 们 考虑 的 
到 底 是 一 个 答案 集合 还 是 一 个 特定 的 答案 。 
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的 ISC 调查 )， 有 超过 200 个 国家 的 7. 5 亿 台 计算 机 直接 连接 到 因特网 上 ， 它 们 中 许多 都 是 
Web 服务 器 [812]。 此 外 ， 根 据 Netcraft 网 站 的 调查 ，Web 服务 器 的 估计 数量 目前 已 经 超 
过 2.06 亿 [1196]。 根 据 这 些 数字 ， 我 们 可 以 说 ， 每 4 台 直 接连 接 到 因特网 的 计算 机 中 ， 就 
有 一 台 是 Web 服务 器 。 

在 两 篇 有 趣 却 已 过 时 的 文章 中 ，Bray [250] 和 woodruff 等 人 [1719] 研究 了 早期 Web 
的 不 同 统计 指标 。 根 据 第 一 篇 文章 ， 在 1995 年 11 月 有 1100 万 页 面 ， 而 从 第 二 篇 得 到 的 数 
据 是 260 万 网 页 。 第 一 个 问题 是 有 多 少 不 同 的 机 构 ( 而 不 是 Web 服务 器 ) 维护 Web 数据 。 
这 个 数字 小 于 服务 器 的 数量 ， 因 为 很 多 地 方 有 多 个 服务 器 。 确 切 的 数字 是 未 知 的 ， 但 应 该 大 
于 Web 服务 器 数量 的 40% (这 一 比例 是 1995 年 的 数据 )。1998 年 年 初 的 规模 估计 是 2 一 3. 2 
亿 ，1998 年 7 月 的 最 佳 估计 达到 3.5 亿 [198]。 更 多 关于 搜索 引擎 规模 的 近期 研究 L135, 
685] 估计 2005 年 有 超过 200 亿 页 面 。 静 态 网 页 9 的 大 小 大 约 每 8 个 月 翻 一 倍 。 在 动态 网 
页 变 得 流行 之 前 ， 静 态 网 页 的 确切 数目 是 非常 重要 的 。 如 今 ，Web 对 于 实际 用 途 来 说 是 无 
限 的 ， 因 为 它 可 以 产生 无 限 的 动态 页 面 (如 一 个 在 线 日 历 ) 12.3.1 节 将 介绍 页 面 的 一 个 分 
类 体系 。 

最 流行 的 Web 文档 的 格式 是 HTML， 之 后 依次 是 GIF 和 IPG (都 是 图 像 )、ASCII X 
本 和 PDF [97]。 最 流行 的 压缩 工具 是 GNU zip, Zip 和 Compress, KF HTML 页 面 ， 有 
很 多 有 趣 的 特点 和 统计 数据 。 第 一 ， 大 多 数 HTML 页 面 不 是 标准 的 ， 这 意味 着 它们 没有 遵 
循 全 部 的 HTML 规范 。 事 实 上 ， 如 果 浏 览 器 是 严格 的 HTML 编译 器 ， 很 多 页 面 不 会 被 演 
染 。 另 外 ， 尽 管 HTML 是 SGML 的 一 个 实例 , 但 HTML 文档 很 少 以 正式 的 文档 类 型 定义 
开始 。 第 二 ，HTML 页 面 是 很 小 的 (大 概 10KB) ， 通 常 包含 很 少 的 图 像 。 大 多 数 页 面 为 了 
展示 目的 而 使 用 图 像 ， 如 彩色 的 锥 体 和 线条 。 每 个 页 面 平 均 包 含 5 一 15 个 超 链 接 (平均 多 于 
8 个 链接 ) 它们 中 的 大 多 数 是 本 地 的 ， 也 就 是 说 ， 它 们 指向 自己 的 Web 服务 器 层次 结构 中 
的 网 页 。 平 均 来 看 ， 指 向 任何 一 个 给 定 页 面 的 外 部 页 面 的 数量 接近 于 零 。 典 型 地 ， 指 向 给 定 
页 面 的 只 有 本 地 链接 ， 也 就 是 来 自 相 同 域 的 页 面 ， 甚 至 对 于 大 型 网 站 的 主页 来 说 也 是 正 
确 的 。 

被 引用 最 多 @ 的 网 站 是 主要 的 互联 网 公司 。 另 一 方面 ， 有 很 多 链接 到 外 部 网 站 的 网 站 日 
录 ， 如 雅虎 8 目录 或 开放 目录 计划 (Open Directory Project)® ， 以 及 维基 百科 @ 等 Web 2.0 
站 点 。 在 某 种 程度 上 ， 这 些 聚 合 链接 的 站 点 是 Web 的 “胶水 ”。 没 有 它们 ， 我 们 会 有 更 多 孤 
立 的 部 分 或 “岛屿 ”， 就 如 同 许多 个 人 网 页 的 情况 。 

对 于 在 网 页 中 使 用 的 语言 ， 有 三 项 早期 的 研究 。 第 一 项 研究 是 Funredes [1263] 在 
1996—1998 年 所 做 的 ， 后 来 继续 进行 到 2005 年 。 它 应 用 Alta Vista 搜索 引擎 ， 搜 索 不 同 
语言 的 不 同 词语 。 后 来 ， 也 应 用 了 其 他 搜索 引擎 。 这 种 技术 在 统计 上 可 能 不 是 很 显著 的 ， 
但 是 其 结果 和 第 二 项 研究 是 一 致 的 。 这 项 研究 是 Alis Technology[28] 所 做 的 ， 它 基于 一 
个 自动 软件 来 检测 所 用 的 语言 。 这 项 研究 的 一 个 目标 是 通过 在 8000 个 Web 服务 器 上 运行 
并 测试 该 软件 。 第 三 项 早期 研究 是 OCLC H 1998 6 A [12301 做 的 ， 它 通过 对 因特网 
IP 地 址 进行 抽样 ， 并 应 用 SILC 语言 识别 软件 完成 。 由 于 目前 Web 的 巨大 规模 ， 还 没有 





网 页 是 Web 服务 器 上 的 文件 。 

动态 网 页 是 用 户 和 Web 服务 器 交互 时 建立 的 HTML 页 面 。 
我 们 谈论 的 是 被 引用 至 少 100 万 次 的 页 面 。 

Yahoo. com/dir, 


dmoz. org, 


@eeaoaodo 


wikipedia. org. 
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更 新 的 研究 。 

2000 年 ， 估 计 约 有 70%% 的 网 页 是 英文 的 ， 但 其 他 语言 可 用 词语 的 数量 比 英语 词语 增长 
得 更 快 [676]。2003 年 1 H, k Zeitgeist? 显示 谷歌 中 的 英语 查询 从 2001 年 的 约 60% 降 
到 约 50% 。 更 新 的 结果 只 是 适用 于 特定 的 国家 [97]. 


11.3.2 Web 图 的 结构 


将 Web 视 为 一 个 图 ， 现 在 已 经 被 广泛 地 认可 。 从 最 简单 的 视角 来 看 ， 结 点 代表 单个 页 
面 ， 边 代表 页 面 之 间 的 链接 。Web 图 的 全 局 结构 已 经 被 广泛 地 研究 。Broder $A [271] 
中 做 了 最 完备 的 研究 ， 将 Web 图 的 拓扑 结构 和 期 蝶 结 结构 《bow-tie) 进行 比较 。 这 个 比喻 
在 图 11-1 中 粗略 地 表示 。 发 挥 一 些 想象 ， 读 者 可 以 看 到 一 个 蝴蝶 结 ， 其 中 最 大 的 强 连 通 分 
x (Strongly Connected Component, SCC) 扮演 了 蝴蝶 结 的 中 心 结 的 和 角色。 

TENDRILS (44%) 


a 4400 万 个 结 点 










IN 向 内 


) 
------ > 


CORE 〈 强 连通 分 支 ) 






5600 万 个 结 点 


TUBES “管道 ) 


CO 


a O 
不 连通 的 分 支 


11-1 Web 的 原始 “蝴蝶 结 ” 结 构 (改编 自 [271]) 


这 种 模型 的 进一步 完善 指出 了 SCC 或 CORE 分 支 内 部 的 区 域 ， 如 [98，506] 所 描述 
的 。 正 如 我 们 在 11. 1 节 中 提 到 的 ， 这 种 模型 的 一 个 限制 表现 在 ， 一 个 网 页 并 不 总 是 一 个 逻 
辑 单元 。 图 中 被 识别 出 的 分 支 如 下 : 
。 CORE (Hob): 组 成 图 中 强 连通 分 支 的 站 点 。 通 过 定义 ， 人 们 可 以 从 CORE 中 的 任 
何 站 点 导航 到 CORE 中 的 其 他 站 点 。 452 
e IN (向 内 ): 可 以 到 达 CORE 中 的 站 点 ， 但 是 不 能 从 CORE 中 的 站 点 到 达 。 
e OUT (向 外 ): 可 以 从 CORE 中 的 站 点 到 达 ， 但 是 没有 回 到 CORE 的 路 径 。 


© URL; http://www. google. com/press/zeitgeist. html, 
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454 
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。 TUBES (#38): 在 CORE 外 面 直接 连接 IN 和 OUT 的 路 径 上 的 站 点 。 

。 TENTACLES (触手 ) 或 者 TENDRILS ( 卷 须 )， 能 够 从 IN (T.IN) 中 的 站 点 到 
达 的 站 点 ， 以 及 只 能 到 达 OUT (T. OUT) 、 但 是 不 属于 之 前 分 支 的 站 点 。 

。 DISCONNECTED (不 相连 ) 或 者 ISLANDS (30): 不 相连 的 站 点 ， 它 们 连接 的 
分 支 可 能 和 整个 Web 有 相似 的 结构 。 

在 [94] 中 ， 这 个 表示 通过 将 CORE 分 支 分 成 四 个 部 分 来 扩展 ， 如 下 所 述 。 

。 Bridges 〈 桥 ) ，CORE 中 可 以 直接 从 IN 分 支 到 达 ， 同 时 又 能 直接 到 达 OUT 分 支 的 

。 Entry points (AG): CORE 中 可 以 从 IN 分 支 直 接 到 达 但 不 在 Bridges 〈 桥 ) 中 
的 站 点 。 

。 Exit Points (440%): CORE 中 可 以 直接 到 达 OUT 分 支 但 不 在 Bridges CBF) 中 的 站 点 。 

。 Normal (标准 ): CORE 中 不 属于 之 前 定义 的 子 分支 。 

图 11-2 显示 了 更 加 完善 的 “蝴蝶 结 ” DISC. 

结构 





在 所 有 关于 Web 的 (有 限制 的 ) 研究 
中 [97]，CORE 分 支 由 较 少 数 的 网 站 组 成 。 
另 一 方面 ， 它 有 很 高 的 网 页 密度 。 结 构 和 内 
容 的 质量 也 显示 有 一 些 相互 的 关系 ， 这 些 关 
系 已 经 从 链接 分 析 中 得 到 (连接 度 越 高 ， 则 
质量 越 高 )。 有 些 研究 表明 ISLANDS 的 数量 
比 我 们 认为 的 更 多 ， 它 们 中 的 大 多 数 不 与 
Web 相连 ， 因 此 ， 除 非 它 们 在 搜索 引擎 上 注 
册 ， 和 否则 很 难 被 发 现 [121]. 触手 -向 内 触手 -向 外 

图 11-2 Web 宏观“ 蝴蝶结” 结构 的 缩 略 图 描述 
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11.3.3 对 Web BR 


Web 的 所 有 特点 显示 CORE DAAE ERARE (power law) 分 布 。 一 个 普遍 的 
PTE — PO FR BEERS A EY PR. AL Te I Ae : 


f(z) 一 六 a>0 (11-1) 


很 容易 验证 ，cz 形式 的 尺度 变化 ， 只 会 改变 常数 a 而 不 会 改变 函数 的 形态 ， 其 中 c 是 
常数 。 这 种 不 变性 通常 也 称 为 自 相 似 性 。 如 果 jz) 是 一 个 概率 分 布 ， 则 一 定 要 设置 a 的 
值 ， 使 得 所 有 的 概率 之 和 是 1。 那 么 只 有 当 wa>1 时 ,a 才 作 为 一 个 常数 存在 。 在 那 种 情况 
下 ， 依 据 x 值 的 不 同 ， 分 布 的 矩 可 能 是 有 限 的 或 无 限 的 。 当 xx 委 2 时 ， 均 值 和 所 有 的 高 阶 甜 
是 无 限 的 ; 当 2<o 委 3 时 ， 均 值 存 在 ， 但 是 方差 和 高 阶 和 矩 是 无 限 的 。 遵 循 宕 律 的 Web 测度 
的 例子 包括 ; 

。 每 个 网 站 的 网 页 个 数 和 每 个 域 的 网 站 个 数 ， 就 像 内 容 研 究 所 显示 的 。 

> 人 链 和 出 链 的 分 布 ， 以 及 连通 分 支 的 个 数 ， 就 像 链 接 结构 研究 所 显示 的 。 

RARE Web 图 中 ， 而 且 在 由 网 站 级 连接 所 构成 的 主机 图 上 ， 都 是 正确 的 。 表 11-1 
SAT [97] 的 主要 发 现 。 对 于 页 面 的 大 小 ， 有 两 个 宕 指数 : 一 个 针对 小 于 20KB 的 页 
面 ， 一 个 针对 其 他 。 出 度 也 是 相同 的 : 一 个 针对 出 链 小 于 20 的 页 面 ， 一 个 针对 更 多 出 链 
的 页 面 。 
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表 11-1 各 个 国家 和 地 区 Web 的 窗 指 数 的 总 结 








ao 
WENNO 


我 们 这 里 主张 ， 以 和 6.5 节 相 同 的 方式 对 整个 Web 文档 的 特性 建 模 是 可 能 的 。 基 本 上 ， 
Heaps 和 Zipf 法 则 在 Web 扩 度 上 是 合理 的 ， 且 有 更 快速 增长 的 词汇 RAK 8) MERE 
的 词语 分 布 〈 较 大 的 a)。 

Ay, 文档 大 小 的 分 布 也 可 以 通过 一 个 数学 模型 来 描述 ， 该 数学 模型 将 文档 大 小 看 成 自 
相似 的 [458]， 也 就 是 说 ， 它 们 对 于 尺度 变化 是 不 变 的 (相似 的 行为 出 现在 Web REL). 
最 佳 模 型 是 基于 两 种 不 同 分 布 的 混合 模型 。 分 布 的 主体 服从 对 数 正 态 分 布 ， 大 小 为 xz FH 
的 文档 的 出 现 概率 服从 以 下 分 布 : 

= 1 (ne—p)? /26? K 
plx) z j= (11-2) 
其 中 均值 (x) 和 标准 差 〈c) 分 别 是 9. 357 和 1.318 [146]. Al 11-3a 显示 了 在 一 个 抽样 文 
档 集中 文件 大 小 的 分 布 ， 其 中 所 有 的 对 数 是 以 10 为 底 的 。 注 意 尾部 作为 负 斜 率 的 直线 ， 出 
现在 水 平 轴 值 4 的 右 侧 。 





log (P[X>x]) 
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a) b) 
图 11-3 a) 用 半 对 数 图 表示 的 所 有 文件 大 小 的 分 布 ( 摘 自 M. Crovella，1998); 
b) 在 对 数 -对 数 图 中 ， 不 同类 型 文件 大 小 的 概率 分 布 的 尾部 [458] 
图 11-3b 的 尾部 是 “ 重 尾 "”。 也 就 是 说 ， 大 部 分 文档 都 很 小 ， 但 是 也 有 不 少 大 文档 。 对 
于 图 像 或 视频 文件 这 是 很 直观 的 ， 在 HTML 页 面 上 这 也 是 正确 的 。 通 过 帕 累 托 分 布 〈 另 一 
FEE PA) 能 得 到 一 个 不 错 的 拟 合 ， 即 


Pe pee 


其 中 工 用 字 节 来 衡量 , 上 和 a 是 分 布 的 参数 [146] AE 11-3b) 。 长 尾 体现 在 ， 曲 线 在 右 便 
下 降 为 负 斜 率 的 直线 。 对 于 文本 文件 ，x 的 值 在 1. 36 左右 ; 对 于 图 像 和 其 他 二 进 制 格式 ， 
这 个 值 会 更 小 [458，1699]。 考 虑 到 所 有 的 Web 文档 ,我 们 取 a 一 1. 1，k 二 9. 3KB。 对 数 正 
态 分 布 和 帕 累 托 分 布 之 间 的 切割 点 大 于 9. 3KB (也 就 是 说 ， 在 水 平 刻度 3. 98 之 后 ， 它 使 得 





(11-3) 
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整体 概率 累加 为 1) 。 有 93%% 的 文档 ， 其 大 小 小 于 切割 点 。 实 际 上 ， 对 于 小 于 50KB 的 文档 ， 
典型 的 文件 是 图 像 ;， 50 一 300KB， 声 音 文 件 的 数量 会 增加 从 300KB 增加 到 数 兆 字 节 ， 视 
频 文 件 更 常见 。 这 些 分 布 的 参数 从 2 个 月 间 多 个 用 户 的 46 000 多 个 网 页 请 求 的 抽样 中 得 到 。 
相关 信息 能 够 在 Web 基准 上 找到 ， 如 WebSpec96 和 Sun/Inktomi Inkbench[811], 


11. 3.4 链接 分 析 


fe Web 上， 遵照 [92], 我 们 将 链接 分 析 分 为 3 个 等 级 : 

e 微观 级 (microscopic level, 与 链接 和 单个 结 点 的 统计 属性 相关 。 

。 链接 分 析 的 介 观 级 (mesoscopic level) ， 与 Web 的 地 区 属性 相关 。 

。 链接 分 析 的 宏观 级 (macroscopic level), FRM Web 的 结构 相关 。 

Web 的 宏观 级 描述 开始 于 Broder 等 [271] 关于 “蝴蝶 结 ” 的 重要 工作 ， 我 们 已 经 在 
11.3.2 节 进 行 了 讨论 。 一 个 相关 的 宏观 描述 是 [1565] 所 提出 的 Jellyfish 结构 ， 它 可 以 被 
应 用 到 互联 网 的 自治 系统 中 。 根 据 这 个 观点 ， 我 们 可 以 识别 被 链接 密度 不 断 下 降 的 区 域 所 包 
围 的 核心 部 分 ， 它 带 有 很 多 结 点 ， 形 成 长 且 松 散 相 连 的 链 或 触手 (tentacle). 

介 观 级 的 链接 分 析 和 结 点 邻 域 的 属性 有 关 ， 这 是 大 多 数 基于 链接 的 排序 函数 的 工作 环 
境 。 一 种 描述 结 点 邻 域 的 方式 称 为 “hop A”: 它 是 一 种 表示 在 不 同 距 离 下 的 不 同 领域 个 数 
的 图 ， 如 图 11-4 所 描述 的 。 介 观 级 也 是 可 以 观察 到 局 部 结构 描述 的 级 别 ， 这 些 局 部 信息 包 
括 结 点 的 社区 信息 和 聚 类 等 。 

Web 的 微观 级 描述 已 经 被 多 名 作者 讨论 [792，139j， 他 们 的 观察 是 ， 基 于 网 页 链接 数 
的 分 布 是 倾斜 的 (skewed)， 而 不 是 在 经 典 随机 图 中 所 观察 到 的 典型 泊 松 分 布 [536]。 在 无 
尺度 网 络 (scale-free network)， 例 如 Web 中 ， 网 页 p ABERA AIRE ; 

Prip 有 上 个 链接 ) cc kk (11-4) 
Hip, GRA 2<a<3， 这 暗示 了 一 个 有 限 的 均值 CW 11.3.3 节 ) 。 

无 尺度 网 络 有 一 些 强 连通 的 链接 ， 它 们 作为 “枢纽 ”连接 网 络 中 的 很 多 其 他 结 点 。 无 尺 
度 网 络 的 连通 性 对 于 边 的 随机 去 除 是 稳定 的 [324]， 可 以 部 分 解释 成 “优先 连接 ” (prefer- 
ential attachment) WH [140]， 也 叫做 富 者 益 富 现象 或 Yule 过 程 。 在 这 个 过 程 中 ， 新 网 页 
v 链接 另 一 个 网 页 w 的 概率 和 w 的 入 链 数 成 正比 。 

图 11-5 显示 了 我 们 所 介绍 的 链接 分 析 等 级 的 一 个 可 视 化 的 描述 。 








宏观 介 观 微观 
Hop 图 夫 法 则 
A att ETRE AAAA 
we a RA, HK 
图 11-4 “hop 图 ”的 示意 图 描述 : 给 出 了 在 图 11-5 ”链接 分 析 的 级 别 [92] 


不 同 距离 的 邻居 数量 [92] 


链接 分 析 是 一 个 极其 丰富 的 信息 源 ， 不 仅 可 以 用 做 推断 相关 性 (将 在 11. 5. 2 节 讨 论 )， 
还 可 以 用 来 确定 爬 取 的 优先 度 〈 见 12. 5. 1 节 )， 甚 至 可 以 在 Web 图 中 找到 社区 等 子 结构 
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L625，947]。 在 11, 5, 2 节 ， 我 们 应 用 链接 分 析 ， 利 用 链接 来 定义 不 同 的 排序 方式 。 


11.4 搜索 引擎 架构 


在 本 节 中 ， 我 们 将 讨论 检索 系统 的 不 同 架 构 ， 它 们 将 Web 建 模 成 一 个 全 文 数据 资源 库 。 
标准 的 信息 检索 系统 和 Web 搜索 的 一 个 主要 差异 是 ， 在 Web 上 ， 所 有 的 查询 处 理 和 排序 都 
必须 是 在 不 访问 源 文 档 的 情况 下 完成 的 。 这 就 避免 了 在 查询 期 间 访 问 远程 网 页 的 缓慢 过 程 。 
这 个 基本 差异 对 于 索引 和 搜索 算法 ， 以 及 查询 语言 的 复杂 人 性 都 有 直接 的 影响 。 需 要 注意 的 
是 ,为 了 产生 片段 (snippet)， 也 会 使 用 源 文档 ， 但 这 仅 限 于 前 10 个 要 展示 给 用 户 的 结果 。 


11.4.1 基本 架构 


大 多 数 搜索 引擎 采用 集中 式 弃 取 器 -索引 器 结构 (centralized crawler-indexer architec- 
ture)， 如 第 12 章 讨 论 的 。 扑 取 器 ， 或 称 候 虫 ， 是 一 种 程序 (软件 代理 )， 它 遍历 Web, & 
送 新 的 或 者 已 更 新 的 页 面 给 负责 索引 的 主 服 务 器 。 疏 虫 也 称 为 机 器 人 Crobot), HIM (spi- 
der)、 漫 游 者 (wanderer)、 步 行者 (walker) 和 智能 机 器 人 Cknowbot), RE HY NG H ix 
个 名 字 ， 但 爬虫 实际 上 并 没有 被 发 送 到 远程 机 器 上 执行 。 相 反 ， 它 在 本 地 系统 上 运行 ， 并 发 
送 请 求 到 远程 的 Web 服务 器 。 

索引 以 集中 的 方式 回答 从 Web 不 同 地 方 提 交 的 查询 。 大 多 数 搜索 引擎 应 用 倒 排 索引 的 
变 体 〈 见 9.2 节 )。 简 单 地 说 ， 倒 排 索引 由 索引 项 列表 GACH) 组 成 ， 其 中 每 个 索引 项 与 
出 现 它 的 页 面 的 指针 列表 相关 联 。 需 要 记 住 的 重要 一 点 是 ， 只 对 文本 的 逻辑 视图 建立 索引 ， 
而 不 是 文字 视图 。 事 实 上 ， 归 一 化 操作 会 按 常规 进行 ， 可 能 包含 去 除 标点 ， 去 除 词 对 之 间 多 
余 的 空格 ， 大 写字 母 转换 为 小 写字 母 〈 见 第 6 章 ) 。 有 些 搜索 引擎 通过 去 除 禁 用 词 来 减少 索 
引 的 大 小 。 然 而 ， 由 于 它们 必须 处 理 数 百 种 语言 ， 因 此 禁用 词 是 通过 统计 来 选择 的 。 

为 了 使 结果 更 丰富 ， 使 用 户 可 以 对 结果 页 面 上 的 每 一 个 答案 有 所 了 解 ， 索 引 会 补充 与 每 
个 网 页 相关 的 元 数据 ， 如 它 的 创建 时 间 、 大 小 、 标 题 等 。 假 设 存储 每 页 的 URL 和 元 数据 需 
要 500 字 节 ， 那 么 为 10 亿 页 面 存储 信息 一 共 需 要 500GB。 这 些 信息 可 以 有 效 地 压缩 ， 所 以 
在 实际 中 ， 其 真实 大 小 会 显著 减 小 。 

给 定 一 个 查询 ， 显 示 的 答案 集合 是 完整 集合 的 一 个 子 集 〈 通 常 是 10 个 结果 》。 如 果 用 户 
需要 更 多 的 结果 ， 那 么 搜索 引擎 能 够 重新 计算 这 个 查询 来 生成 后 面 的 10 个 结果 ， 或 者 从 保 
存在 主 存 内 的 部 分 结果 集中 得 到 它们 。 在 任何 情况 下 ， 搜 索引 擎 从 来 不 会 从 整个 Web 文档 
集中 计算 全 部 答案 ， 因 为 找到 数 千 个 最 相关 的 结果 通常 是 足够 的 。 事 实 上 ， 计 算 完 整 的 答案 
集会 非常 慢 ， 因 为 有 些 查询 有 很 多 的 结果 。 

最 先进 的 索引 技术 能 够 将 倒 排 索引 减少 到 原始 大 小 的 30% (如 果 去 掉 禁 用 词 ， 其 至 会 
更 少 ) ， 如 9. 2.6 节 讨 论 的 〈 见 [1703])。 为 了 说 明 这 点 ， 考 虑 到 10 亿 页 面 的 Web 文档 集 
需要 1. 5TB 的 存储 空间 。 未 压缩 的 索引 需要 大 约 60% M4 lal, B 900GB。 另 一 方面 ， 压 缩 
索引 大 约 需 要 不 到 一 半 的 空间 ， 也 就 是 400GB。 正 如 9. 2. 3 节 讨 论 的 ， 通 过 结合 单个 词 的 文 
档 列 表 来 产生 最 终 列 表 ， 索 引 可 以 用 于 回答 由 多 个 词组 成 的 查询 。 很 多 搜索 引擎 也 支持 精确 
短语 和 邻近 搜索 ， 这 些 功 能 或 者 需要 文档 中 查询 项 位 置 的 附加 信息 ， 或 者 需要 将 频繁 短语 作 
为 索引 单元 MADARA. 

如 果 每 一 个 词 都 不 是 很 频繁 的 ， 那 么 搜索 步骤 就 可 以 有 效 地 进行 。 然 而 ， 在 Web 中 很 
少 是 这 样 的 。 为 此 ， 当 潜在 答案 的 数目 可 能 非常 大 时 ， 所 有 的 搜索 引擎 用 一 种 懒惰 的 查询 处 
理 方案 。 也 就 是 说 ， 只 计算 第 一 个 答案 ， 当 用 户 在 看 过 第 一 个 结果 以 后 再 请 求 进一步 的 结果 
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时 ， 才 会 计算 进一步 的 结果 。 更 多 通过 倒 排 索引 搜索 的 细节 可 以 在 9. 2. 3 节 看 到 。 


11-6 BAT Alta Vista 等 早期 搜索 引 
擎 [426] 的 软件 架构 示意 图 。 它 由 两 部 分 组 
R: 一 个 处 理 用 户 的 请 求 ， 包 括 用 户 界面 和 
查询 引擎 组 件 ; 另 一 个 处 理 数据 ， 包 括 候 取 
和 索引 组 件 。1998 年 ， 整 个 系统 在 20 台 多 
处 理 器 的 机 器 上 和 运行。 它们 全 部 加 起 来 有 超 
过 130GB 的 RAM 和 超过 500GB AURA. £ 
询 引擎 本 身 使 用 超过 75% 的 资源 。 

这 个 架构 所 面 对 的 主要 问题 ， 除 了 收集 
AE, MECHER. Xim, ERRi- 





Web 


图 11-6 FREAR- S| BS AY e SR H 


器 架构 在 20 世纪 90 年 代 末 就 无 法 应 对 Web 的 增长 。 解 决 方法 是 分 布 式 和 并 行 的 计算 ， 正 


如 下 面 所 解释 的 。 


11.4.2 基于 集群 的 架构 


目前 的 搜索 引擎 使 用 大 规模 并 行 和 基于 集群 的 架构 [151，484，99] 〈 见 第 10 章 )。 由 于 文档 

集 较 大 ， 倒 排 索 引 无 法 存放 在 单 台 计算 机 上 ， 必 须 分 布 到 集群 中 的 多 台 计 算 机 上 。 为 此 ， 如 10.3 
节 所 述 ， 应 用 文档 分 割 技术 。 大 量 的 查询 表明 这 种 基本 的 架构 必须 被 复制 多 份 以 便 能 够 处 理 整 体 
的 查询 负载 ， 而 每 个 集群 必须 处 理 查 询 负载 的 一 部 分 。 另 外 ， 因 为 查询 来 自 世 界 各 地 ， 跨 各 大 洲 
查询 
| 


有 明显 的 互联 网 时 延 ， 集 群 副本 应 保存 在 不 同 
的 地 理 位 置 ， 以 减少 应 答 时 间 。 这 使 得 搜索 引 
擎 在 大 多 数 典 型 的 最 坏 情况 下 可 以 容错 ， 例 如 
停电 或 自然 灾害 。 在 这 种 架构 中 有 很 多 重要 的 
细节 需要 仔细 地 分 析 : 

D 在 搜索 引擎 的 内 部 〈 回 答 查询 和 索 
S|) 和 外 部 ERO 之 间 实 现 很 好 的 平衡 是 
尤其 重要 的 。 这 是 通过 分 配 专用 集群 给 爬 取 、 
文档 服务 、 索 引 、 用 户 交 互 、 查 询 处 理 ， 甚 
至 是 结果 页 面 的 生成 来 完成 的 。 

2) 另外 ， 也 需要 维持 不 同 集群 间 的 良好 
负载 平衡 。 这 是 通过 称 为 负载 均衡 器 oad 
balancer) 的 专门 服务 器 完成 的 。 

D 最 后 ， 因 为 硬件 经 常 中 断 ， 因 此 容错 
需 在 软件 级 进行 处 理 。 将 查询 分 发 到 最 胜任 
的 集群 上 ， 同 时 ， 使 用 廉价 的 可 替换 的 硬件 
部 件 ， 在 发 生 故障 时 处 理 器 和 硬盘 可 以 替换 。 

图 11-7 显示 一 个 通用 的 具有 关键 组 件 的 
搜索 集群 架构 。 前 端 服务 器 接收 查询 ， 如 果 
答案 已 经 在 “答案 缓存 ”服务 器 中 ， 那 么 系 
统 就 马上 处 理 它们 ( 见 11.4.3 节 )。 否 则 ， 
它们 通过 层次 式 代理 网 络 将 查询 发 送 给 搜索 








索引 缓存 
| 搜索 集群 搜索 集群 
[1.7] [nm] 
集群 1 集群 n 


图 11-7 基于 集群 的 架构 中 的 搜索 模块 [484J。 每 个 集 
群 包括 一 个 所 有 文档 集 的 索引 ， 该 索引 在 集 
群 中 的 m 个 服务 器 间 被 分 割 。 利 用 个 集群 
来 生成 整个 索引 的 ”个 副本 
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集群 。 这 个 网 络 的 确切 拓扑 结构 会 有 所 不 同 ， 但 基本 上 其 设计 应 该 可 以 平衡 流量 ， 以 尽 可 能 
快速 地 到 达 搜 索 集 群 。 每 一 个 搜索 集群 包括 一 个 负载 平衡 服务 器 (图 11-7 中 的 LB) 将 查询 
发 送 给 搜索 集群 的 全 部 服务 器 。 在 图 11-7 中 ,我 们 展示 了 将 索引 分 配 到 m 个 服务 器 上 ， 整 
个 集群 则 有 个 索引 副本 。 尽 管 将 索引 分 配 到 单个 集群 上 是 可 以 的 ,但 并 不 建议 这 么 做 ， 因 
为 集群 可 能 会 变 得 非常 大 ， 接 下 来 会 遭受 额外 的 管理 和 容错 问题 。 每 个 搜索 集群 也 包括 一 个 
索引 缓存 ， 如 顶部 的 平面 矩形 所 示 。 代 理 网 络 将 搜索 集群 的 结果 融合 起 来 ， 把 融合 的 结果 发 
送 到 适合 的 前 端 服务 器 ， 这 些 服务 器 可 以 使 用 正确 的 文档 服务 器 产生 完整 的 结果 页 面 ， 其 中 
包括 摘要 和 其 他 搜索 结果 页 面 。 这 是 更 普遍 的 、 将 整个 数据 中 心 看 成 一 台 计 算 机 的 趋势 的 一 
个 例子 [152], Orlando 等 人 [1235] 提出 了 一 个 并 行 和 分 布 式 搜 索引 擎 架构 ， 它 基于 两 个 
主要 的 并 行 化 策略 : 一 个 任务 并 行 策略 〈 多 个 同 质 的 索引 服务 器 独立 地 执行 查询 ) 和 一 个 数 
据 平行 策略 〈 访 问 数据 库 不 同 分 区 的 索引 上 服务 器 并 行 处 理 查询 ) 。 然 而 ， 实 际 中 很 少 公布 这 
种 架构 的 细节 描述 ， 因 为 领先 的 搜索 引擎 将 这 些 细节 (大 多 数 查 询 过 程 所 需 资源 的 确切 数 
字 ， 如 CPU MRA) 作为 商业 秘密 。 

Chowdhury 和 Pass[381] 介绍 了 文档 划分 架构 的 排队 论 模型 ， 并 应 用 它 来 分 析 内 在 的 
运行 要 求 : 吞吐 量 、 响 应 时 间 和 利用 率 。 他 们 的 排队 模型 假定 对 于 每 个 查询 ， 处 理 相同 数量 
文档 的 索引 服务 器 的 执行 时 间 之 间 有 一 个 完美 的 平衡 。 然 而 ，Badue FA [85] 发 现 即使 索 
引 服 务 器 间 的 文档 集 有 平衡 的 分 布 ， 但 查询 日 志 里 查询 项 的 频 度 和 相关 倒 排 表 间 的 联系 也 可 
以 导致 在 这 些 服务 器 中 查询 执行 时 间 的 不 平衡 ， 因 为 这 个 联系 影响 磁盘 的 高 速 缓存 行为 。 此 
外 ， 每 台 服 务 器 主 存 的 相对 大 小 〈 和 磁盘 的 使 用 情况 有 关 》〉 和 参与 到 并 行 查询 处 理 任务 的 服 
务 器 数量 也 能 够 造成 局 部 查询 执行 时 间 的 不 平衡 。 通 过 用 于 该 特定 架构 的 容量 规划 模型 ， 同 
样 的 作者 [84] 解决 了 这 个 问题 。 尽 管 如 此 ， 关 于 Web 搜索 系统 性 能 模型 的 可 用 文献 仍然 
是 有 限 的 。 

Web 搜索 引擎 的 规模 和 复杂 性 ， 以 及 每 天 用 户 提 交 的 查询 量 ， 使 查询 日 志 成 为 提高 搜 
索 结 果 的 精度 和 搜索 引擎 中 各 个 部 分 效率 的 重要 信息 源 。 查 询 〈 项 ) 分 布 、 每 个 查询 的 到 达 
时 间 和 点 击 结果 等 特征 是 从 查询 日 志 上 抽取 信息 的 一 些 例 子 。 现 在 考虑 的 重要 问题 是 ， 我 们 
是 否 可 以 利用 和 转换 这 些 信 息 ， 以 便 对 文档 集 进 行 划分 ， 更 高 效 和 有 效 地 分 发 查询 。 在 过 去 
的 几 年 中 ， 很 多 研究 关注 使 用 查询 日 志 进 行 查询 缓存 ， 对 文档 集 进 行 划 分 和 执行 查询 分 发 
[1304，1474]。 下 一 步 ， 我 们 探索 一 些 对 理解 查询 负载 和 搜索 引擎 的 查询 分 布 有 益 的 技术 。 


11.4.3 缓存 


因为 搜索 引擎 需要 快速 工作 ， 所 以 无 论 何 时 大 多 数 任务 被 认为 应 该 在 主 存 中 进行 。 因 
此 ， 缓 存 被 大 力 推荐 和 广泛 使 用 。 缓 存 对 于 被 大 量 用 户 访问 的 Web 系统 来 说 是 一 个 有 用 的 
技术 。 它 能 够 减少 平均 响应 时 间 ， 显 著 地 减少 后 端 服务 器 的 工作 量 ， 并 减少 带宽 的 使 用 总 
量 。 在 Web 系统 中 ， 客 户 端 和 服务 器 都 可 以 缓存 对 象 。 虽 然 浏览 器 和 代理 可 以 缓存 客户 端 
上 的 Web 对 象 ， 但 服务 器 缓存 预先 计算 的 结果 或 新 结果 计算 中 使 用 的 部 分 结果 [1284]. R 
们 专注 于 搜索 引擎 端 缓存 的 讨论 ， 因 为 这 是 更 有 效 的 并 且 完 全 受到 控制 的 。 这 种 缓存 机 制 受 
用 户 共享 某 些 相同 查询 这 一 现象 的 驱动 ， 如 最 初 在 [1727] 中 所 记录 的 那样 。 

搜索 引擎 中 最 有 效 的 缓存 技术 是 搜索 结果 的 缓存 或 叫 答案 缓存 ， 它 是 在 图 11-7 中 前 端 
层 进行 的 ， 它 允许 对 频繁 出 现 的 查询 进行 快速 响应 。 因 为 查询 服从 竹 律 分 布 ， 少 量 的 查询 经 
常 重复 ， 因 此 一 个 小 的 缓存 可 以 回答 大 比例 的 查询 。 例 如 ， 如 果 我 们 得 到 30% 的 命中 率 ， 
那么 搜索 引擎 的 容量 就 能 增加 近 43%% 。 另 一 方面 ， 在 任何 时 间 窗 口内 ， 大 部 分 查询 〈 例 如 
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[104] 中 的 50%) 将 是 独一无二 的 ， 因 此 不 会 出 现在 缓存 中 。 也 就 是 说 ， 答 案 缓存 的 命中 
率 有 极限 。 这 可 以 通过 在 搜索 集群 层 缓存 倒 排 索引 列表 来 解决 。 这 个 缓存 更 有 效 ， 对 于 重复 
的 查询 项 可 以 有 超过 90% 的 命中 率 [104]， 即 使 查询 是 不 同 的 。 然 而 ， 因 为 结果 缓存 会 快 
很 多 ， 所 以 对 于 每 类 缓存 所 要 投入 的 比例 并 不 容易 计算 ， 这 依赖 于 系统 。 

早期 的 工作 L1329] 提出 了 使 用 建立 在 一 组 持续 “最 优 的 ”历史 查询 上 的 查询 日 志 ， 
提高 未 来 相似 查询 的 检索 效果 。 后 来 ，Markatos[1091] 证 明了 在 查询 中 存在 临时 的 局 部 
性 ， 并 使 用 命中 率 作 为 指标 ， 比 较 了 最 近 最 少 使 用 (least recent used，LRU) 策略 不 同 变 
种 的 性 能 ， 结 果 发 现 静态 缓存 对 于 小 的 缓存 是 有 用 的 。Cao[L328] 提出 考虑 除了 局 部 性 之 外 
的 参数 的 缓存 策略 ， 如 被 缓存 对 象 的 大 小 和 从 磁盘 获取 对 象 所 需要 的 时 间 。 这 个 方法 对 索引 
进行 如 下 组 织 : 将 预计 算 结 果 的 索引 〈 从 过 去 的 用 户 查询 ) 和 最 频繁 查询 项 的 倒 排 表 保 存在 
主 存 内 ， 其 余部 分 的 索引 则 保存 在 辅助 存储 器 内 。 

由 于 系统 通常 是 分 层次 的 ， 因 此 提出 了 很 多 关于 多 级 缓存 架构 的 建议 。Saraiva 等 人 
[428] 提出 了 一 种 使 用 二 级 动态 缓存 系统 的 Web 搜索 引擎 的 新 架构 。 这 项 工作 的 主要 目标 
是 提高 分 层 搜 索引 擎 的 响应 时 间 。 在 他 们 的 架构 中 ， 二 级 缓存 都 应 用 了 LRU 驱逐 策略 。 他 
们 发 现 第 二 级 缓存 能 够 有 效 地 减少 磁盘 的 流量 ， 从 而 提高 了 整体 的 吞吐 有 量 。Baeza-Yates 和 
Saint Jean[123] 提出 了 一 个 三 级 索引 结构 ， 带 有 基于 项 频 的 倒 排 表 静 态 缓存 。 

根据 Markato 的 观察 ，Lempel 和 MoranL1002] 提出 了 一 种 称 为 概率 驱动 缓存 (Proba- 
bilistic Driven Caching, PDC) 的 新 的 缓存 策略 ， 它 试图 估计 所 有 向 搜索 引擎 提交 的 后 续 查 
询 〈 从 第 二 个 结果 页 面 开 始 ) 的 概率 分 布 。PDC 是 第 一 个 采用 预 取 方法 来 应 对 用 户 请 求 的 
策略 。 为 此 ，PDC 利用 一 个 用 户 行为 模型 ， 其 中 用 户 的 会 话 开始 于 请 求 第 一 个 结果 页 面 的 
查询 ， 并 能 够 随 着 一 个 或 多 个 后 续 查 询 继续 进行 〈 即 要 求 连 续 结果 页 面 的 查询 )。 当 r 秒 内 
没有 收 到 后 续 查 询 ， 就 认为 会 话 结束 了 。 

Fagni 等 人 [544] 说 明 将 静态 和 动态 的 缓存 策略 以 及 自 适应 的 预 取 策略 相 结 合 ， 可 以 
达到 较 高 的 命中 率 〈 称 为 启发 式 SDC 算法 )。 在 实验 中 ， 他 们 发 现 将 很 大 部 分 条 目 投 入 到 静 
态 缓存 并 与 预 取 结合 会 获得 最 高 的 命中 率 。 另 一 方面 ，Zhang $A [1773] 研究 了 使 用 多 种 
动态 缓存 算法 来 对 压缩 倒 排 表 中 的 数据 块 进行 缓存 的 方法 ， 发 现 从 内 存 中 驱逐 倒 排 表 中 最 不 
常用 的 块 ， 会 在 命中 率 方面 表现 得 很 好 。 

Baeza-Yates 等 人 [104, 105] 首次 对 静态 和 动态 缓存 的 结果 进行 比较 研究 ， 特 别 关 注 
于 倒 排 表 缓 存 和 对 结果 的 内 存 分 配 。 他 们 发 现 ， 当 把 30% 缓 存 用 于 结果 ， 而 其 余部 分 给 倒 
排 表 时 ， 可 以 获得 最 好 的 结果 。 他 们 还 提出 了 一 个 用 于 静态 缓存 倒 排 表 的 新 算法 ， 它 基于 背 
包 问 题 中 的 一 个 著名 的 启发 式 方法 ， 用 查询 频率 和 倒 排 表 长 度 的 比率 来 确定 应 该 缓存 什么 。 
图 11-8 显示 了 这 个 算法 的 结果 ， 并 与 LRU、LFU 以 及 之 前 的 解法 [123] 相 比 较 。 它 们 还 
展示 了 查询 分 布 的 变化 是 很 小 的 ， 而 且 对 可 以 定期 〈 如 每 天 ) 重新 计算 的 静态 解法 影响 很 
小 。 关 于 动态 缓存 的 类 似 结 果 在 [1047] 中 提出 。 

动态 结果 缓存 的 一 个 问题 是 ， 由 以 后 不 再 出 现 的 唯一 查询 所 产生 的 污染 效应 。 为 了 解决 
这 个 问题 ，Baeza-Yates 等 人 [112] 提出 了 一 种 准 入 控制 机 制 ， 它 基于 简单 的 预测 来 决定 是 
否 需 要 缓存 答案 集合 。 在 这 个 解决 方案 中 ， 缓 存 被 分 成 两 部 分 。 第 一 部 分 用 来 缓存 在 未 来 可 
能 会 重复 的 查询 结果 ; 第 二 部 分 用 来 缓存 其 他 所 有 的 查询 ， 以 处 理 突 发 性 查询 和 预测 误差 。 
无 论 是 在 第 一 部 分 还 是 第 二 部 分 对 结果 进行 缓存 都 取决 于 查询 的 特征 ， 如 之 前 的 出 现 频 度 或 
长 度 〈 按 词 或 字符 统计 )。 它 们 的 结果 在 SDC 算法 的 基础 上 有 所 提升 ， 并 说 明了 通过 简单 的 
特征 ， 就 可 以 减少 缓存 污染 。 
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11-8 不 同 倒 排 表 缓存 算法 的 性 能 [105] 




















11.4.4 多 级 索引 


分 层 的 索引 代表 另 一 种 的 改进 。 例 如 ， 考 虑 两 级 或 两 层 的 索引 。 第 一 级 是 较 小 的 快速 索 
引 ， 用 于 最 频繁 的 查询 ; 而 第 二 个 级 是 较 大 的 慢 速 索引 ， 用 于 其 他 查询 。 在 [1359，1360， 
123] 中 探讨 了 如 何 将 文档 集 划分 到 多 个 层次 。Risvik 建议 为 了 可 扩展 性 的 目的 采用 多 层 结 
构 [1359，1360]。 在 这 个 系统 中 ， 层 次 充当 过 滤器 ， 根 据 在 给 定 层 的 命中 数量 以 及 该 层 查 
询 结 果 的 相关 性 得 分 ， 将 查询 “下 传 ”到 下 一 层 。 

上 述 技术 的 缺点 是 有 些 查询 会 有 较 慢 的 答案 ， 尤 其 是 当 按 照 层次 依次 搜索 时 。 一 个 解决 
方案 是 在 所 有 层 并 行 提交 查询 。 然 而 ， 这 增加 了 查询 负载 ， 因 此 总 的 硬件 设施 开销 会 增加 。 
一 个 较 好 的 解决 方案 是 预测 哪些 查询 需要 传 到 下 一 层 。 为 此 ，Baeza-Yates 等 人 [114] 提出 
了 一 种 基于 机 器 学 习 的 预测 器 ， 完 全 基于 查询 的 特征 来 决定 搜索 是 否 应 该 并 行 地 进行 。 他 们 
说 明 比 随机 方法 强 的 任何 预测 都 能 节省 回答 时 间 ， 但 在 硬件 开销 可 能 有 负面 的 影响 。 因 此 ， 
他 们 提供 了 关于 性 能 -花费 权衡 的 分 析 ， 表 明 每 当 回答 时 间 有 所 减少 时 ， 都 会 在 硬件 花费 上 
有 小 的 增加 。 

Liu FA [1043] 对 于 多 级 索引 进行 了 另 一 项 研究 ， 他 们 的 实验 表明 ， 在 中 国 互联 网 上 
抽取 的 语 料 上 ， 可 以 减少 语 料 规模 95% 来 生成 “干净 的 语 料 ”， 但 仍 保持 检索 性 能 不 变 。 更 
具体 地 说 ，90% 的 查询 可 以 通过 干净 语 料 中 的 文档 来 回答 。 他 们 利用 PageRank ( 见 11. 5. 2 
节 ) 和 人 链 数 等 查询 独立 的 特征 ， 将 每 一 个 页 面 分 成 潜在 的 检索 目标 页 面 〈 干 净 的 语 料 ) 或 
普通 的 页 面 〈 被 删除 ) 。 


Ntoulas 等 人 在 [1214] 中 提出 了 另 一 个 层次 化 技术 ， 在 缓存 结果 后 使 用 剪 枝 索 引 来 为 . 


简单 的 查询 提供 快速 的 结果 。 他 们 介绍 了 一 个 二 层 的 架构 ， 第 一 层 是 一 个 小 的 剪 枝 索引 ， 第 
二 层 是 搜索 引擎 的 完整 索引 。 查 询 首先 通过 小 的 剪 枝 索引 回答 。 如 果 得 到 的 答案 和 完整 索引 
相 比 ， 在 效果 上 没有 损失 ， 那 么 就 将 结果 返回 给 用 户 ; 否则 ， 就 在 完整 索引 上 执行 查询 。 在 
第 一 步 中 ， 这 个 方法 似乎 是 有 好 处 的 ， 然 而 进一步 的 研究 发 现 当 考虑 缓存 的 影响 时 ， 这 个 方 
法 的 价值 就 不 那么 明显 了 ， 因 为 剪 枝 索引 和 倒 排 索引 缓存 有 着 基本 相同 的 效果 ， 适 应 性 却 不 
如 它们 [1487]。 实 际 上 ， 这 些 结果 显示 研究 组 件 间 的 整体 交互 是 多 么 的 重要 ， 而 不 应 该 孤 
立地 改进 每 个 部 分 。 例 如 ， 结 果 缓 存 使 实际 命中 搜索 引擎 的 查询 的 平均 长 度 增加 了 30%, 
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同时 显著 减少 了 单个 词 查 询 。 

对 于 如 何在 层次 间 划 分 Web 文档 集 ，D’Souze 等 人 [514] 使 用 TREC 语 料 第 一 、 二 卷 
中 来 自 美 联 社 的 数据 ， 比 较 了 三 种 划分 语料库 的 方法 [703]。 他 们 尝试 了 随机 划分 、 基 于 文 
档 时 间 顺 序 划分 ， 以 及 基于 文档 作者 的 划分 ， 模 拟 一 个 可 管理 的 环境 ， 其 中 文档 集 是 基于 某 
些 相同 的 特点 划分 的 。 同 样 ，Craswell 等 人 [437] 使 用 wt2g 文档 集 ， 这 是 wtl0g 文档 集 
的 子 集 。 该 文档 集 从 956 TRS LIMA. TM AH TREC 的 其 他 模拟 数据 更 
真实 。 

Yom-Tov 等 人 在 TREC Terabyte 评测 任务 中 测试 了 Web. gov 文档 集 的 各 种 划分 方案 。 
将 每 个 查询 提交 给 所 有 的 分 区 ， 最 终 的 结果 列表 是 通过 对 单个 结果 列表 进行 加 权 合 并 得 到 
的 ， 其 中 每 个 结果 列表 的 权重 基于 估计 每 个 分 区 回答 查询 的 好 坏 程度 的 预测 算法 而 获得 。 所 
测试 的 划分 方案 分 别 基于 文档 聚 类 、 域 、 人 链 数 和 文档 标题 字符 串 。 后 者 整体 表现 最 好 ， 然 
而 随机 划分 排 在 第 二 。 它 们 应 用 查询 预测 算法 来 合并 结果 ， 而 不 是 为 层次 选择 做 一 个 前 期 处 
理 。 另 一 个 缺陷 是 ， 它 们 没有 事先 决定 要 搜索 的 语料库 ， 所 以 在 并 行 过 程 中 每 一 层 都 会 被 
检索 。 


11. 4.5 分 布 式 架 构 


疏 取 器 -索引 器 架构 存在 多 个 变种 ， 这 里 ， 我 们 将 描述 一 些 最 重要 的 。 它 们 中 最 重要 的 
早期 例子 是 Harvest 获取 架构 [244]。 在 最 新 方法 中 ， 我 们 主要 介绍 Baeza-Yates[106] 等 
人 提出 的 多 站 点 架构 。 

1. Harvest 架构 

Harvest 架构 应 用 一 个 分 布 式 的 架构 来 收集 和 分 发 数据 ， 这 比 标准 的 网 络 息 取 架 构 〈 见 
第 12 章 ) 更 有 效 。 其 主要 缺点 是 Harvest 架构 需要 协调 多 个 Web 服务 器 。 有 趣 的 是 ，Har- 
vest 分 布 式 方 法 不 受 不 取 器 -索引 器 架构 中 某 些 常见 问题 的 影响 : 

。 不 同 候 虫 的 并 发 请 求 所 引起 的 服务 器 负载 增加 。 

。 爬虫 获取 整个 对 象 ， 造 成 了 Web 流量 的 增加 ， 但 大 多 数 内 容 最 终 却 没有 保留 下 来 。 

。 信息 由 各 个 疏 虫 独立 收集 ， 造 成 引擎 间 缺 乏 协 调 。 

为 了 避免 这 些 问题 ， 这 里 介绍 架构 中 的 两 个 主要 组 件 ; 收集 器 和 代理 。 收 集 器 从 一 个 或 
多 个 Web 服务 器 中 收集 和 抽取 索引 信息 。 收 集 的 时 间 由 系统 定义 ， 是 周期 性 的 〈 也 就 是 系 
统 的 名 字 所 表示 的 收获 时 间 。 代 理 提供 了 索引 机 制 和 所 收集 数据 的 查询 接口 。 代 理 从 一 个 
或 多 个 收集 器 或 其 他 代理 检索 信息 ， 增 量 地 更 新 它们 的 索引 。 根 据 收 集 器 和 代理 配置 的 不 
同 ， 服 务 器 负载 和 网 络 流量 会 有 不 同 程度 的 改进 。 例 如 ， 收 集 器 可 以 在 Web 服务 器 内 运行 ， 
而 不 产生 外 部 流量 。 此 外 ， 为 了 避免 重复 的 工作 ， 收 集 器 可 以 将 信息 发 送 给 多 个 代理 。 代 理 
也 可 以 过 滤 信 息 并 将 信息 发 送 给 其 他 代理 。 这 个 设计 允许 工作 和 信息 通过 一 个 灵活 和 通用 的 


方式 来 分 享 。 Harvest 架构 的 例子 在 图 11-9 PER. 


Harvest 架构 的 一 个 目标 是 建立 特定 主题 的 代理 ， 关 注 索引 内 容 并 避免 通用 索引 中 的 词 
汇 表 和 可 扩展 性 问题 。Harvest 架构 包括 一 个 专门 的 代理 ， 人 允许 其 他 的 代理 注册 关于 收集 器 
和 代理 的 信息 。 在 建立 一 个 新 的 系统 时 ， 这 对 于 确定 一 个 合适 的 代理 或 收集 器 是 最 有 用 的 。 
Harvest 架构 也 提供 了 复制 器 和 对 象 缓存 。 复 制 器 能 够 用 来 复制 服务 器 ， 提 高 基于 用 户 的 可 
扩展 性 。 例 如 注册 代理 能 够 被 不 同 地 理 区 域 复 制 以 便 更 快 地 访问 。 复 制 还 可 以 用 于 在 很 多 
Web 服务 器 间 划 分 收集 进程 。 最 后 ， 对 象 缓 存 降低 了 网 络 和 服务 器 的 负载 ， 也 减少 了 访问 
网 页 时 的 响应 时 延 。 更 多 细节 可 以 在 [244] 中 找到 。 
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复制 管理 器 


对 象 缓存 


图 11-9 Harvest 架构 


指向 网 页 还 是 指向 词语 位 置 是 索引 颗粒 度 的 一 个 指示 。 如 果 它 指向 逻辑 块 而 不 是 页 面 ， 
索引 会 不 那么 密集 。 这 个 方法 可 以 通过 使 所 有 的 块 具 有 基本 相同 大 小 来 减少 不 同文 档 的 大 小 
差异 。 它 不 仅 减 少 了 指针 的 大 小 〈 因 为 块 数 比 文档 数 少 )， 还 减少 了 指针 的 数量 〈 由 于 词语 
之 间 引 用 的 局 部 性 )。 事 实 上，,， 非 频繁 词语 往往 会 共同 出 现在 同一 块 上 。 这 个 想法 在 
Glimpse[L1078] 中 用 到 ， 它 是 harvest 架构 的 核心 [244]。 查 询 像 在 倒 排 索 引 中 一 样 处 理 ， 
获得 块 的 列表 ， 然 后 顺序 搜索 这 些 块 。 需 要 注意 的 是 ， 精 确 的 顺序 搜索 可 以 在 RAM 中 以 每 
秒 30MB 的 速度 完成 。Glimpse 原本 只 用 了 256 块 ， 用 来 在 200MB 文本 中 对 那些 不 频繁 出 
现 的 词 进行 有 效 的 搜索 ， 且 索引 仅 占 文档 的 2%。 通 过 调整 块 的 数量 和 大 小 ， 对 于 较 大 的 文 
档 集 ， 可 以 得 到 合理 的 空间 -时 间 的 权衡 ( 详 见 第 9 章 )。 这 些 想法 还 不 能 应 用 在 Web E, 
因为 网 络 访问 ， 顺 序 搜索 没 办 法 负担 得 起 。 然 而 ， 在 分 布 式 体系 结构 中 ， 如 果 索 引 也 是 分 布 
式 的 ， 那 么 逻辑 块 就 有 意义 。 

2. 多 站 点 架构 

随 着 文档 集 的 增长 ， 查 询 处 理 器 的 容量 也 需要 增长 ， 以 匹配 高 查询 吞吐 量 和 低 时 延 的 需 
求 。 然 而 ， 单 处 理 器 性 能 的 增长 不 可 能 和 Web 等 超大 规模 文档 集 的 增长 相 匹配 ， 即 使 采用 
大 量 的 服务 器 。 最 主要 的 原因 是 物理 的 和 管理 的 限制 ， 如 单个 数据 中 心 的 大 小 以 及 能 源 和 制 
冷 需 求 [151]。 因 此 ， 使 用 不 同 查询 处 理 器 的 分 布 式 查询 解决 方案 是 一 种 可 行 的 方法 ， 因 为 
它 更 具有 可 扩展 性 。 然 而 ， 它 同时 也 面 对 新 的 挑战 。 一 个 挑战 是 将 查询 分 发 到 合适 的 查询 处 
理 器 上 ， 以 便 更 有 效 地 利用 可 用 的 资源 ， 并 提供 更 精确 的 结果 。 影 响 查询 分 发 的 因素 包括 地 
理 邻 近 性 、 查 询 的 主题 或 查询 的 语言 。 地 理 邻近 性 的 目标 是 通过 利用 与 提交 查询 的 用 户 相 接 
近 的 资源 来 减少 检索 时 延 。 这 种 功能 的 一 种 可 能 的 实现 方法 是 DNS 重 定 向 : 根据 客户 端的 
IP 地 址 ，DNS 服务 器 将 查询 分 发 到 适当 的 Web 服务 器 ,通常 是 网 络 中 距离 最 近 的 [1539]。 
作为 另 一 个 例子 ，DNS 服务 器 可 以 应 用 地 理 位 置 来 决定 将 查询 分 发 到 哪里 。 由 于 在 一 天 内 ， 
一 个 特定 的 地 理 区 域内 提交 的 查询 会 有 些 波动 [168]， 因 此 也 可 能 从 繁忙 区 域 中 的 服务 器 印 
下 一 些 负载 ， 将 这 些 查询 重新 分 发 到 一 些 不 那么 繁忙 的 区 域 。 

考虑 到 上 述 的 讨论 ，Baeza-Yates 等 人 [106] 最 近 提 出 了 一 个 搜索 引擎 的 成 本 模型 和 一 
个 简单 的 分 布 式 架构 ， 其 成 本 与 集中 式 搜索 架构 具有 可 比 性 。 该 架构 基于 星 形 拓扑 结构 逻辑 
相连 的 若干 站 点 ， 这 样 中 心 站 点 是 本 地 查询 负载 最 大 的 站 点 。 其 主要 的 思想 是 在 本 地 回答 本 
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地 查询 ， 仅 当 在 答案 中 需要 外 部 页 面 时 ， 才 转发 到 其 他 站 点 。 为 了 增加 本 地 查询 的 比例 ， 作 
者 建议 使 用 结果 缓存 ， 并 复制 一 份 所 有 站 点 内 热门 文档 的 小 集合 。 这 两 个 技术 可 以 将 本 地 结 
果 的 数量 从 5% 增 加 至 30% 或 者 以 上 。 

在 一 篇 补充 性 论文 中 ，Cambazoglu 等 人 [325] 表明 通过 在 本 地 回答 查询 ， 所 节约 的 资 
源 能 够 用 作 执 行 更 复杂 的 排序 函数 ， 这 样 就 可 以 改善 结果 。 


11.5 搜索 引擎 排序 


排序 是 搜索 引擎 必须 执行 的 最 难 、 也 是 最 重要 的 功能 。 第 一 个 挑战 是 制定 适当 的 评价 过 
程 ， 可 以 从 用 户 相关 性 方面 来 有 效 地 评价 排序 的 效能 。 没 有 这 样 的 评估 过 程 ， 就 不 可 能 很 好 
地 微调 排序 函数 ， 产 生 高 质量 的 结果 。 第 4 章 已 经 详细 介绍 了 很 多 可 能 的 评价 技术 和 指标 。 
E 11.5.6 节 ， 我 们 将 在 Web 的 背景 中 介绍 这 个 话题 ， 特 别 注 重 对 于 用 户 点 击 的 利用 。 

第 二 个 重要 的 挑战 是 Web 内 容 质 量 的 识别 。 质 量 可 以 根据 多 个 信号 来 指示 ， 如 域名 
《例如 ，. edu 是 一 个 积极 的 信号 ， 因 为 来 自学 术 机 构 的 内 容 更 有 可 能 被 检索 )， 文 本 内 容 和 
各 种 计数 (如 词语 共 现 数 )、 链 接 (如 PageRank) 和 被 搜索 引擎 监管 的 网 页 访问 模式 。 事实 
上 ， 如 之 前 提 到 的 ， 点 击 是 质量 的 关键 因素 。 搜 索引 擎 的 流量 越 多 ， 可 用 的 信号 也 就 越 多 。 网 
页 的 布局 也 提供 一 些 额外 的 可 用 信和 号， 如 标题 、 元 数据 和 字体 大 小 等 ， 在 后 面 将 进行 讨论 。 

当前 搜索 引擎 所 采用 的 基于 广告 的 商业 模式 在 经 济 上 刺激 了 第 三 个 挑战 的 产生 ， 避免 
Web iik. Web 环境 中 的 垃圾 制造 者 指 的 是 企图 人 为 地 增加 之 前 所 提 到 的 信号 来 欺骗 搜索 
引擎 的 恶意 用 户 。 欺 骗 是 可 以 实现 的 ， 例 如 将 网 页 中 的 一 个 词 重复 很 多 次 ; 使 用 链接 农场 ; 
通过 可 见 的 着 色 技 巧 向 用 户 隐 藏 索 引 项 ， 但 是 对 搜索 引 敬 可见 ; 最 先进 的 方式 甚至 是 欺骗 性 
JavaScript 代码 。 更 多 的 细节 在 11. 5. 7 节 给 出 。 

最 后 ， 第 四 个 问题 在 于 确定 排序 函数 并 计算 排序 (这 与 上 面 提 到 的 质量 评价 不 同 ) 。 虽 
然 比较 不 同 的 搜索 引擎 是 相当 困难 的 ， 因 为 它们 在 不 同 的 Web 语料库 上 开发 和 运行 ， 但 是 
领先 的 搜索 引擎 必须 使 用 它们 自己 的 评价 方式 ， 不 断 地 评价 和 自我 比较 ， 以 保持 竞争 力 。 

在 接 下 来 的 小 节 中 ， 我 们 将 讨论 一 些 经 典 的 信号 〈signal) ， 在 排序 函数 中 它们 通常 被 搜 
索引 擎 用 做 相关 性 的 指示 ， 或 者 在 基于 机 器 学 习 的 排序 函数 学 习 中 用 做 特征 。 之 后 我 们 讨论 
基于 链接 的 排序 函数 ， 相 比 经 典 的 信息 检索 ， 这 是 一 个 为 Web 而 发 明 出 来 的 领域 。 然 后 ， 
我 们 从 简 到 难 讨论 了 三 种 不 同 的 排序 技术 。 最 后 ， 我 们 介绍 了 质量 评价 和 Web 垃圾 。 


11.5.1 排序 信号 


我 们 区 分 应 用 于 改善 排序 的 不 同类 型 的 信号 ， 包 括 来 源 、 内 容 、 结 构 或 用 途 。 

内 容 信 号 和 文本 本 身 以 及 文档 中 词 的 分 布 相关 ， 这 是 信息 检索 领域 的 传统 研究 问题 。 这 
种 情况 下 的 信号 包括 简单 的 词 计数 和 BM25 等 完整 的 IR 得 分 等 〈 见 3 5. 1 节 )。 它 们 也 可 以 
由 布局 提供 《〈 即 HTML 源 )， 从 简单 格式 指示 〈 标 题 给 予 更 多 的 权重 ) 到 复杂 的 指示 ， 如 
页 面 中 某 标签 的 邻近 信息 。 

结构 信号 是 Web 链接 结构 的 内 在 信息 。 它 们 中 的 一 些 在 本 质 上 是 文本 ， 如 锚 文 本 ， 它 
以 非常 简短 的 形式 描述 目标 网 页 的 内 容 。 事 实 上 ， 错 文本 通常 用 做 所 链接 网 页 的 代表 文本 。 
这 意味 着 即使 还 没有 爬 取 到 网 页 ， 也 可 以 通过 搜索 与 它们 相 链 接 的 锚 文 本 来 得 到 网 页 。 其 他 
信和 号 涉及 链接 本 身 ， 如 页 面 的 入 链 数 或 出 链 数 。 我 们 应 该 注意 到 ， 基 于 链接 的 信号 比 经 典 的 
搜索 引擎 排序 具有 更 广泛 的 用 处 。 一 个 例子 是 应 用 基于 链接 的 信号 ， 在 社交 网 络 中 回答 名 称 
查询 ， 如 (1638) 所 讨论 的 。 由 于 这 些 基于 链接 的 信号 对 于 Web 是 典型 的 ， 但 却 没有 用 在 
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传统 的 信息 检索 系统 中 ，11. 5. 2 节 会 充分 介绍 它们 。 

下 一 组 信号 来 自 Web 用 途 (Web usage) 。 主 要 的 一 个 是 用 户 通 过 点 击 产 生 的 隐 式 反馈 。 
在 我 们 的 情况 中 ， 对 点 击 最 主要 的 利用 是 结果 集合 的 URL。 这 个 重要 的 相关 性 资源 已 经 在 
4.5.5 节 和 5.4 节 中 介绍 。 另 外 的 信号 包括 用 户 的 地 理 环 境 信息 (IP 地 址 、 语 言 等 )， 技 术 
环境 〈 操 作 系 统 、 浏 览 器 等 ) 和 时 序 环境 〈 通 过 用 户 cookies 得 到 的 查询 历史 )。 这 些 特征 
可 以 给 用 户 更 好 的 本 地 化 结果 ， 并 对 其 按 地 区 或 语言 定制 ， 甚 至 对 它们 进行 部 分 的 个 性 化 。 
请 注意 ， 这 个 应 用 遵循 医 律 法 则 。 也 就 是 说 ， 有 少量 重量 级 的 用 户 和 许多 较 轻 量 级 的 用 户 。 
因此 ， 尽 管 个 性 化 只 对 某 些 用 户 行 之 有 效 ， 但 如 7. 2. 3 节 所 描述 的 那样 ， 对 许多 用 户 共 有 的 
意图 进行 个 性 化 更 为 简单 和 有 效 。 


11.5.2 基于 链接 的 排序 


鉴于 任何 一 个 给 定 的 查询 能 得 到 几 千 个 甚至 几 百 万 个 可 用 的 页 面 ， 对 这 些 页 面 通过 排序 
来 产生 一 个 短 列 表 可 能 是 Web 信息 检索 中 最 关键 的 问题 ， 它 需要 一 些 相 关 性 的 估计 。 在 这 
种 情况 下 ， 指 向 页 面 的 超 链接 的 个 数 是 其 受 欢迎 程度 和 质量 的 度量 。 此 外 ， 网 页 之 间 可 能 有 
很 多 共同 链接 ， 不 同 的 网 页 也 可 以 被 相同 的 网 页 所 引用 ， 这 些 都 经 常 指示 了 网 页 之 间 的 联 
系 ， 对 排序 有 潜在 价值 。 下 面 ， 我 们 介绍 几 个 利用 链接 的 排序 技术 的 例子 ， 但 在 是 否 依赖 于 
查询 上 有 所 不 同 。 

1. 早期 的 算法 

科学 论文 重要 性 的 一 个 信号 是 文章 的 被 引用 数量 ， 这 是 图 书馆 科学 的 研究 人 员 研 究 很 久 
的 一 个 话题 L880]。 基 于 这 个 想法 ， 多 位 作者 提出 通过 人 链 对 网 页 进行 排序 [1086，855， 
1021]。 然 而 ， 人 们 很 快 就 意识 到 只 统计 和 链接 的 个 数 不 是 很 可 靠 的 权威 性 测度 (对 科学 论文 
引用 也 是 这 样 )， 因 为 很 容易 通过 建立 新 的 页 面 来 从 外 部 影响 这 个 数量 (成 本 基本 为 零 )。 

Yuwono 和 LeeL1760] EAHA TF-IDF FR ( 见 第 3 章 ) 之 外 ， 提 出 了 三 个 排序 算 
法 ， 它 们 是 ,布尔 传播 (Boolean spread)、 向 量 传播 (vector spread)、 最 多 引用 (most-ci- 
ted) 。 前 两 个 是 通常 的 基于 布尔 模型 和 向 量 空间 模型 的 排序 算法 ， 并 将 它们 进行 扩展 ， 考 上 不 
某 个 答案 页 面 所 指向 的 页 面 ， 和 指向 某 个 答案 页 面 的 页 面 。 第 三 个 算法 , “最 多 引用 ”仅仅 
基于 有 链接 指向 答案 页 面 的 页 面 所 包含 的 索引 项 。 这 些 技术 对 比 研 究 考虑 了 在 2400 个 网 页 
上 的 56 个 查询 。 结 果 显 示 向 量 传播 模型 得 到 更 好 的 召回 率 -精度 曲线 ， 有 75% 的 平均 精度 。 

另外 一 个 早期 的 例子 是 WebQuery[L338]， 它 也 实现 了 网 页 的 可 视 化 浏览 。WebQuery 
处 理 网 页 的 集合 (例如 搜索 结果 的 列表 ) ， 然 后 基于 每 个 网 页 的 相连 程度 将 它们 排序 。 此 外 ， 
它 通 过 发 现 与 原始 集合 高 度 相 连 的 网 页 来 扩展 这 个 集合 。 一 个 相关 的 方法 是 由 Lillo] 提 
出 的 。 

2. HITS 

一 个 更 好 的 想法 由 Kleinberg[91I1] 提出 ， 应 用 在 超 文本 推导 主题 搜索 算法 (Hypertext 


Induced Topic Search, HITS) 中 ， 这 个 排序 方法 是 查询 依赖 的 ， 它 考虑 指向 答案 页 面 或 者 . 


被 答案 页 面 所 指向 的 页 面 的 集合 S。 在 S 中 ， 被 很 多 链接 指向 的 页 面 称 为 权威 页 Cauthori- 
ties) ， 因 为 它们 倾向 于 包含 权威 和 相关 的 内 容 。 有 很 多 向 外 链接 的 页 面 称 为 枢纽 页 (hub)， 
它们 倾向 于 指向 相关 的 相似 内 容 。 存 在 一 个 积极 的 双向 反馈 较 好 的 权威 页 面 被 好 的 枢纽 页 
面 所 指向 ， 较 好 的 枢纽 页 面 指向 好 的 权威 页 面 。 令 H MAP) 是 页 面 p 的 权威 ， 值 和 
枢纽 值 。 定 义 这 些 值 ， 使 全 部 页 面 p 都 满足 以 下 公式 : 

H(p) = >) Au), A= >) Hœ) (11-5) 


u€ S| pou vE Slu~p 
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表 11-2 不 同 国家 的 基于 链接 的 指标 中 等 指 数 的 总 结 

HITS 
Hubs Auth. 
巴西 1. 83 2. 9 1. 83 


国家 PageRank 











智利 1.85 2.7 1.85 
希腊 1. 83 2.6 1. 83 
韩国 1.83 3.7 1.83 


西班牙 1. 96 n/a n/a 





其 中 HO MA 对 于 所 有 页 面 是 归 一 化 的 〈 在 原始 论文 中 ， 每 个 指标 的 平方 和 设 
置 为 1 )。 这 些 值 可 以 通过 迭代 算法 得 到 ， 它 们 收敛 于 链接 矩阵 S 的 主 特征 向 量 。 在 Web 情 
况 下 ， 为 了 避免 S 规模 的 爆炸 ， 定 义 了 指向 答案 的 最 大 页 面 数 量 。 这 个 技术 在 链接 不 存在 、 
BA, 或 者 自动 产生 的 情况 下 不 能 很 好 地 工作 。 一 个 解决 方法 是 基于 周围 内 容 来 衡量 每 个 链 
接 的 权重 。 第 二 个 问题 是 主题 扩散 ， 因 为 链接 权重 带 来 一 个 后 果 ， 即 结果 集 可 能 包括 与 查询 
不 直接 相关 的 页 面 〈 即 使 它们 有 很 高 的 枢纽 和 权威 值 ) 。 这 个 现象 的 一 个 典型 例子 就 是 当 一 
个 特定 查询 被 扩展 到 一 个 包括 原始 答案 的 、 更 广泛 的 主题 。 这 个 问题 的 一 个 解决 方案 是 将 每 
个 页 面 的 内 容 关 联 到 一 个 得 分 ， 就 像 在 传统 的 信息 检索 排序 一 样 ， 然 后 将 得 分 和 链接 的 权重 
结合 起 来 。 链 接 的 权重 和 页 面 的 得 分 可 以 包含 在 之 前 的 公式 里 ， 通 过 与 和 式 的 每 一 项 相 乘 
[352，199，351]。 实 验 结果 表明 ， 前 10 个 答案 的 召回 率 和 精度 显著 地 增加 [199]。 通 过 将 链 
接 划 分 成 子 组 ， 并 在 子 组 上 而 不 是 原始 网 页 上 应 用 HITS 算法 ， 也 可 以 利用 网 页 中 链接 出 现 的 
顺序 。 表 11-2 中 ， 我 们 展示 了 全 球 不 同 国家 的 权威 值 和 枢纽 值 分 布 的 者 指数 ， 来 自 [97]. 

3. PageRank 

最 有 名 的 基于 链接 的 权重 是 PageRank, CHAR [253] 最 初 应 用 的 排序 算法 的 一 部 
分 。 如 下 所 示 ，PageRank 模拟 用 户 在 Web 上 的 随机 导航 行为 。 考 虑 到 用 户 正 处 于 页 面 a. 
接 下 来 ， 她 通过 随机 选择 页 面 a 中 的 一 个 超 链接 ， 移 动 到 一 个 页 面 a 指向 的 页 面 。 下 一 步 ， 
她 在 移动 后 的 网 页 上 不 渐 重 复 这 个 过 程 。 在 多 次 的 移动 后 ， 我 们 能 够 计算 用 户 访问 每 个 网 页 
的 概率 。 这 个 概率 满足 图 的 性 质 ， 在 Web 环境 中 称 为 PageRank。 真 正 的 Web 图 中 包含 死 
端 (dead end) ， 即 那些 没有 出 链 和 自 链 接 的 页 面 。 为 了 避免 用 户 陷 人 这 样 的 网 页 中 ， 需 要 
考虑 另外 一 种 情况 ， 使 得 她 也 能 以 一 个 小 概率 g 跳 到 图 的 任意 一 个 其 他 页 面 。 

因此 ， 用 户 可 以 以 概率 q 跳 转 到 Web 图 中 的 一 个 随机 页 面 ， 或 者 以 1 一 9 的 概率 跟随 当 
前 页 面 中 的 一 个 超 链 接 跳 转 。 通 过 Web 图 上 随机 游 走 的 定义 ， 用 户 从 来 不 会 跟随 已 经 经 历 
过 的 超 链接 回 到 刚刚 访问 过 的 页 面 。 这 个 过 程 可 以 建 模 成 一 个 马尔 科 夫 链 ， 由 此 可 以 计算 出 
在 每 一 个 页 面 的 平稳 概率 。 定 义 L(p)〉 是 页 面 p 出 链 的 个 数 ， 假 设 页 面 a RUA P op 指 
向 。 那 么 ， 在 页 面 a 找到 用 户 的 概率 PR (a)， 也 就 是 页 面 a 的 PageRank, 定义 为 : 

n PR(p, 
PR) = £+a~o >) Te 
其 中 工 是 Web 图 中 页 面 的 总 数量 ，9 是 系统 中 必须 设 定 的 参数 〈 典 型 值 是 0. 15) 。 注 意 其 他 
页 面 的 排序 GLE) 被 页 面 的 链接 数 归 一 化 了 。PageRank 能 够 通过 和 迭代 算法 计算 ， 并 对 应 
于 Web 的 归 一 化 链接 矩阵 〈 即 马尔 科 夫 链 的 转移 矩阵 ) 的 主 特征 向 量 。 

在 计算 PageRank 的 时 候 ， 存 在 一 些 技术 问题 。 主 要 的 一 个 问题 是 关于 处 理 马 尔 科 夫 链 
中 的 死 端 或 者 “沉没 结 点 ”， 即 那些 没有 出 链 的 网 页 。 一 个 解决 方法 是 对 所 有 这 些 页 面 ，g 
都 等 于 1。 更 简单 的 方法 是 去 掉 它们 〈 这 也 可 以 减少 链接 和 气 阵 的 大 小 )， 最 后 再 使 用 它们 父 
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结 点 的 PageRank 来 计算 它们 的 PageRank, 

在 (91, 92] 中 ,定义 了 一 系列 通过 链接 传播 页 面 重要 性 的 排序 算法 。 这 些 算法 应 用 了 
随 距 离 减 小 的 衰减 函数 ， 于 是 一 个 直接 链接 就 比 在 长 路 径 中 的 链接 更 为 可 靠 。 作 者 研究 了 三 
种 路 径 长 度 的 衰减 函数 : 线性 的 、 指 数 的 ， 以 及 双 曲 线 衰减 。 指 数 衰 减 对 应 于 PageRank, 
其 他 函数 是 新 的 。 在 其 他 结果 中 ， 他 们 说 明 如 何 计 算 一 个 线性 允 近 来 得 到 页 面 的 顺序 ， 这 与 
使 用 国定 的 、 较 少 的 迭代 次 数 的 PageRank 是 基本 相同 的 。 田 外， 他 们 也 介绍 了 为 什么 9g 取 
0.15 是 个 好 的 值 。 在 表 11-2 中 ， 显 示 了 在 不 同 国家 PageRank 分 布 的 者 指数 。 

接 下 来 是 最 后 的 历史 评价 。 第 一 个 关于 超 文 本 相关 性 的 通用 方案 对 相关 性 插值 定义 了 一 
个 线性 微分 方程 ， 形 式 是 y 王 r 十 Dy， 其 中 + 是 初始 的 相关 性 估计 ，D 是 带 权 重 的 连接 和 矩阵 
L286]。 通 过 对 7 MD 做 一 个 合适 的 选择 ， 我 们 能 够 从 这 个 公式 产生 PageRank, 


11.5.3 简单 的 排序 函数 


最 简单 的 排序 方案 由 一 个 全 局 排序 函数 构成 ， 如 PageRank。 在 这 种 情况 下 ， 页 面 的 质 
量 与 查询 无 关 ， 查 询 只 作为 一 个 文档 过 滤器 。 也 就 是 说 ， 满 足 查询 的 所 有 网 页 都 按照 Pag- 
eRank 的 顺序 排序 。 

更 复杂 的 排序 方案 由 不 同 相关 性 信号 的 线性 组 合 构成 。 例 如 ， 将 BM25 〈 见 第 3 章 ) 等 
文本 特征 和 PageRank 等 链接 特征 相 结合 。 为 了 说 明 这 一 点 ， 假 设 页 面 p 满足 查询 Q@。 那 
4, SERA Q, Wi p 的 排序 得 分 RC(p，Q) 可 以 这 样 计算 : 

R(p,Q) = aBM25(p,Q) + (1—a)PR(p) (11-7) 
MA, WR p REQ, BARG, Q 二 0。 如 果 我 们 假设 所 有 的 函数 都 进行 了 归 一 化 ， 
且 aE[0，1]， ARG, Q EL[0，1]。 需 要 说 明 的 是 ， 这 个 线性 函数 对 于 a 是 上 同 的 。 另 
外 ， 式 子 的 第 一 项 依赖 于 查询 ， 而 第 二 项 不 依赖 查询 。 如 果 a 二 1， 我 们 得 到 了 纯粹 的 文本 
排序 ， 这 是 早期 搜索 引擎 的 典型 情况 。 如 果 =0， 我 们 得 到 了 纯粹 的 基于 链接 的 排序 ， 它 
是 独立 于 查询 的 。 因 此 ， 对 于 包含 查询 g 的 页 面 ， 其 顺序 是 事先 已 知 的 。 我 们 可 以 应 用 标注 
数据 或 者 点 击 数据 作为 正确 答案 ， 通 过 实验 来 调整 a WE., KRE, a 可 能 是 依赖 查询 的 。 
例如 ， 对 于 一 个 导航 型 查询 的 a 值 要 比 信息 型 查询 更 小 〈 见 7.2.1 节 )。 

Silva 等 人 [1478] 报告 了 一 项 较 早 的 工作 ， 将 基于 文本 和 基于 链接 的 排序 相 结合 。 

者 应 用 一 个 贝 叶 斯 网 络 来 结合 不 同 的 信号 ， 说 明了 这 种 结合 会 比 孤 立地 使 用 任何 一 种 排序 函 
数 带 来 更 好 的 结果 。Calado 等 人 [311] 在 接 下 来 的 研究 中 讨论 了 基于 链接 的 全 局 排序 和 局 
部 排序 在 计算 Web 结果 时 的 对 比 效果 。 对 于 网 页 p， 基 于 链接 的 局 部 排序 方法 只 考虑 了 链 
接 p 的 页 面 和 被 p 链接 的 页 面 。 作 者 将 基于 文本 的 排序 方法 (向 量 模型 ) 分 别 与 全 局 HITS 
算法 、 局 部 HITS 算法 ， 以 及 全 局 PageRank 算法 相 结 合 ， 并 对 结果 进行 了 比较 。 实 验 表 
明 ， 基 于 链接 的 全 局 排序 在 排名 靠 前 的 部 分 得 到 更 好 算法 的 结果 ， 基 于 链接 的 局 部 排序 在 排 
名 较 后 的 部 分 则 表现 得 更 好 。 


11.5.4 排序 学 习 


一 个 非常 独特 的 计算 Web 排序 的 方法 是 应 用 机 器 学 习 技 术 来 进行 排序 学 习 。 为 此 ， 人 
们 可 以 使 用 他 们 喜欢 的 机 器 学 习 算 法 ， 依 靠 包 含 排序 信息 的 训练 语 料 ， 来 “学 习 ” 结 果 的 排 
序 ， 这 类 似 于 用 监督 算法 进行 文本 分 类 〈 见 第 8 章 )。 在 这 种 情况 下 ， 需 要 最 小 化 的 损失 函 
数 是 学 习 算 法 中 的 错误 数 ， 类 似 于 传统 分 类 算法 中 错误 分 类 的 个 数 〈 见 第 8 章 )。 对 学 习 到 
的 排序 进行 评估 必须 在 不 同 于 训练 语 料 的 其 他 数据 集 上 进行 〈 也 包含 排序 信息 )。 对 于 查询 
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Q， 有 三 种 排序 信息 可 以 用 于 训练 : 
。 点 式 〈pointwise) :一 个 与 Q 相关 的 页 面 集合 。 
。 对 式 (pairwise): 指示 两 个 页 面 间 排序 关系 的 相关 页 面 对 的 集合 。 也 就 是 说 ， 对 
[zi> 加 ] 意味 着 页 面 p: 比 页 面 p 更 相关 。 

。 FIX Uistwise) ， 排 好 序 的 相关 页 面 : pi> poe pmo 

在 任何 情况 下 ， 可 以 认为 包含 在 排序 信息 内 的 任何 页 面 比 不 包含 在 排序 信息 内 的 页 面 更 
相关 ， 或 者 我 们 可 以 保持 那些 情况 不 定义 。 另 外 ， 排 序 信息 也 不 需要 一 致 〈 例 如 ， 在 对 
AP). 

训练 集 可 能 来 自 所 谓 的 “编辑 判断 ”， 既 可 以 来 自 手动 标注 ， 也 可 以 来 自 点 击 数 据 ， 
后 者 更 好 。 考 虑 到 用 户 点 击 反映 了 用 户 的 偏好 ， 而 且 在 很 大 程度 上 与 评测 人 员 的 相关 性 评 
价 一 致 〈 见 第 5 章 )， 人 们 可 以 考虑 通过 点 击 信 息 来 产生 训练 数据 。 这 样 ， 我 们 就 能 够 从 基 
于 点 击 的 偏好 中 学 习 排 序 函 数 。 也 就 是 说 ， 如 果 对 于 查询 Q@，p1 比 加 有 更 多 的 点 击 ， 那 么 
lpi >be]. 

从 点 击 数据 中 使 用 对 式 方式 的 排序 学 习 方法 使 用 支持 向 量 机 算法 ( 见 8. 2. 1 节 ) 来 学 习 
排序 函数 。 这 是 由 [1320] 提出 的 。 这 种 情况 下 ， 偏 好 关系 可 以 转化 成 由 带 权重 项 向 量 表示 
的 排序 文档 间 的 不 等 关系 。 然 后 这 些 不 等 关系 转化 为 一 个 支持 向 量 机 优化 问题 ， 它 为 文档 中 
的 项 计算 最 优 的 权重 。 这 种 方法 建议 将 带 有 不 同 权 重 的 不 同 搜索 函数 结合 到 一 个 单一 的 排序 
函数 中 。 

点 式 算法 通过 对 于 单个 文档 进行 回归 或 分 类 来 解决 排序 问题 ， 而 对 式 方法 将 排序 问题 转 
化 为 文档 对 的 分 类 问题 。 这 两 种 方法 的 优点 是 它们 可 以 应 用 现 有 的 回归 或 分 类 结果 。 然 而 ， 
排序 有 一 些 内 在 的 特点 不 能 被 对 式 方法 解决 。 

列 式 方法 直接 解决 排序 问题 ， 它 采用 列 式 损失 函数 ， 或 者 直接 优化 平均 精度 等 信息 检索 
评价 指标 。 然 而 ， 这 种 方法 通常 比较 复杂 。 有 些 作 者 提出 应 用 多 变量 函数 ， 也 叫做 关系 排序 
函数 ， 来 代替 基于 单 文档 的 排序 函数 ， 来 求解 列 式 排序 。 

损失 函数 的 第 二 种 可 能 性 是 用 不 同 的 松弛 优化 函数 来 最 大 化 平均 精度 〈 见 4. 3.2 节 )， 
由 Joachims[841] 和 Yue 等 人 [1759] 提出 。 更 多 的 技术 细节 可 以 在 Chakrabarti 的 优秀 综 
述 [350] 中 得 到 ， 包 括 这 个 问题 的 其 他 变种 。 

为 了 研究 ， 微 软 发 布 了 一 个 带 有 排序 信息 的 数据 集 LETORL1039]， 它 被 研究 人 员 用 做 
比较 的 基准 而 得 到 广泛 采用 。 


11.5.5 学 习 排序 函数 


另 一 个 不 同 的 方案 是 学 习 排序 函数 ， 而 不 是 学 习 排 序 的 顺序 。 它 等 价 于 为 基本 排序 学 习 
可 能 的 最 好 函数 。 其 想法 是 使 用 遗传 算法 ， 其 中 ， 种 群 的 成 员 是 在 给 定 的 排序 特征 集合 上 的 
函数 实例 。 在 遗传 算法 的 每 一 步 ， 不 同 函 数 变异 或 交叉 ,使 用 基准 或 训练 数据 来 评估 函数 的 
适合 度 。 在 多 次 迭代 之 后 ， 挑 选 出 最 适应 的 函数 。 

这 个 方法 的 一 个 明显 的 优点 ， 它 们 可 以 通过 简单 地 观察 函数 来 发 现 重要 的 特征 ， 以 及 它 
们 对 最 终 排序 的 影响 。 这 种 想法 似乎 同时 独立 出 现在 Trotmann[ 1595] 的 文档 排序 任务 和 
Lacerda 等 人 [954] 的 广告 排序 任务 中 。 这 两 种 方法 应 用 相似 的 函数 集 ( 标 准 的 运算 符 和 
典型 的 简单 函数 ， 如 对 数 函 数 或 指数 函数 )， 但 是 他 们 组 合 函数 的 方法 ， 以 及 被 优化 的 “ 适 
合 度 ” 函 数 的 特点 是 不 同 的 。 

因为 这 个 技术 非常 新 ， 所 以 在 改进 结果 质量 以 及 效率 方面 还 需要 进一步 的 研究 。 
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11. 5.6 质量 评价 


为 了 能 够 评价 质量 ，Web 搜索 引擎 通常 使 用 人 工 评价 指出 对 给 定 的 查询 哪个 结果 是 相 
关 的 ， 或 者 从 用 户 点 击 估计 真实 情况 ， 或 者 最 终 选 择 两 者 的 结合 。 
1. 前 5、10、20 平均 精度 
评价 Web 搜索 结果 质量 的 一 个 简单 方法 是 将 标准 的 精度 -召回 率 指标 应 用 到 Web 中 
( 见 4.3.2 节 )。 为 此 ， 以 下 观察 是 很 重要 的 : 
。 在 Web 上， 几乎 不 可 能 评价 召回 率 ， 因 为 对 于 上 典型 查询 来 说 相关 页 面 的 个 数 是 非常 
多 的 ， 甚 至 是 不 知道 的 。 因 此 ， 标 准 的 精度 -召回 率 数值 不 能 直接 获得 。 
。 大 多 数 Web 用 户 只 查看 前 10 个 结果 ， 而 用 户 查看 前 20 以 外 的 结果 是 相对 不 常见 
的 。 因 此 ， 没 有 必要 评价 排 在 20 名 以 后 的 Web 结果 的 质量 ， 因 为 它 不 反映 一 般 用 
户 的 行为 。 
。 由 于 Web 查询 比较 得 和 模糊 ， 因 此 对 结果 的 人 工 评价 应 该 是 由 多 个 不 同 的 人 对 每 个 
查询 -结果 对 进行 相关 性 评价 。 例 如 ， 如 果 某 个 查询 -结果 对 有 三 个 单独 的 评价 ， 其 
中 至 少 两 个 评价 显示 是 相关 的 ， 那 么 我 们 可 以 认为 结果 和 查询 确实 相关 。 
这 些 观察 的 综合 影响 是 : D 对 于 Web 结果 的 精度 ， 应 该 只 评价 排列 靠 前 的 位 置 ， 即 
P@5、P@10 和 P@20; 2) 每 个 查询 -结果 对 应 该 有 3 一 5 个 独立 的 评价 。 
2. 将 点 击 数据 作为 评价 指标 
应 用 点 击 数据 来 评价 答案 质量 的 一 个 主要 优点 是 它 的 可 扩展 性 。 缺 点 是 在 较 小 语料库 的 
情况 下 效果 不 太 好 ， 如 Web 内 容 很 少 的 国家 、 企 业 网 搜索 ， 或 者 在 查询 的 长 尾 区 域 ( 见 
7.2 节 )。 注 意 ， 用 户 的 点 击 并 不 是 被 当成 二 值 信号 来 使 用 的 ， 而 是 通过 更 复杂 的 方式 应 用 ， 
如 考虑 保持 在 所 点 击 页 面 停 留 了 较 长 时 间 (一 个 好 的 信号) 或 者 从 一 个 结果 跳 转 到 其 他 结果 
(这 个 信号 表明 没有 找到 满意 的 结果 )。 这 些 测度 及 其 用 途 是 复杂 的 ， 也 是 某 些 领 先 的 搜索 引 
擎 的 秘密 。 
为 此 ， 在 这 种 情况 下 最 主要 的 评价 指标 是 基于 大 规模 点 击 数据 的 前 10 或 前 20 个 结果 的 
平均 精度 。 利 用 点 击 评价 的 更 多 细节 见 4. 5.5 节 。 
使 用 点 击 时 一 个 需要 考虑 的 重要 问题 是 ， 点 击 率 被 答案 的 排序 (排名 更 好 的 网 页 得 到 更 
多 的 点 击 ) 和 用 户 界 面 〈 例 如 ， 在 第 一 页 的 最 后 一 个 结果 和 第 二 页 第 一 个 结果 之 间 ， 点 击 数 
会 有 一 个 间断 ) 所 影响 。 因 此 ， 去 除 这 种 点 击 偏向 来 发 现 它们 的 真 值 是 很 重要 的 [111， 
1321，522]。 这 个 问题 的 更 多 细节 在 5.4 节 中 讨论 。 另 外 ， 在 正确 的 环境 中 获得 点 击 也 是 很 
重要 的 [1277]. 
3. 评价 片段 的 质量 
一 个 相关 的 问题 是 评价 结果 片段 的 质量 。 搜 索 片 段 (snippet) 是 从 搜索 引擎 结果 中 产 
生 的 一 小 段 文本 摘录 。 它 们 提供 了 搜索 结果 的 摘要 ， 说 明 结 果 与 查询 的 相关 性 (例如 通过 将 
查询 项 变 成 黑体 )。 它 为 用 户 提供 了 很 大 的 价值 ， 用 户 可 以 快速 查看 片段 来 决定 哪个 结果 是 
他 们 感 兴趣 的 。 
既然 搜索 片段 在 显示 搜索 结果 中 扮演 了 重要 的 角色 ， 那 么 对 其 质量 的 评价 就 很 重要 。 实 
际 上 ， 近 期 关于 这 个 领域 的 研究 正在 增加 。 存 C861] 中 ， 作 者 研究 了 片段 长 度 的 变化 是 如 
何 影响 结果 质量 的 。 在 [873] 中 ， 作 者 研究 了 如 何 预测 搜索 片段 的 可 读 性 。 在 [35] 中 ， 
作者 提出 了 伴随 时 间 信 息 的 搜索 片段 ， 并 评价 了 它 是 如 何 改进 结果 的 。 在 所 有 这 些 研 究 中 ， 
最 可 取 的 评价 技术 是 众 包 (crowdsourcing), #4) Æ Amazon Mechanical Turk (AMT) ¥ 
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人 台 ， 在 4.5.4 节 已 讨论 了 。 


11.5.7 Web 垃圾 


Web 曾 涵 着 很 多 一 利 的 商机 ， 经 济 上 的 激励 促使 网 站 拥有 者 希望 其 网 站 在 搜索 引擎 的 
结果 列表 中 排 在 前 列 。 所 有 希望 提高 搜索 引擎 排名 的 欺骗 行为 通常 被 称 为 Web 垃圾 (Web 
spam) 或 垃圾 索引 (spamdex)。 与 垃圾 做 斗争 的 相关 研究 领域 称 为 敌对 信息 检索 ， 它 已 经 
成 为 一 些 论文 和 研讨 会 的 目标 [23]. 

Web 搜索 引擎 一 定 要 考虑 到 , “任何 对 网 页 的 可 重复 特征 计数 的 评价 策略 都 是 易于 操纵 
的 ”[1238]j。 实 际 上 ， 这 样 的 操纵 是 很 广泛 的 ， 而 且 在 很 多 情况 下 是 成 功 的 。L531] 的 作者 
报告 ， 在 1 亿 个 网 页 的 PageRank 计算 中 ,前 20 个 URL 中 有 11 个 是 色情 的 ， 这 些 高 排名 
似乎 都 是 通过 使 用 相同 形式 的 链接 操纵 来 得 到 的 。 

在 [690] 中 ,垃圾 被 定义 为 “任何 为 了 得 到 与 网 页 的 真实 价值 相 比 不 公正 的 相关 性 或 
重要 性 倾向 的 蓄意 行为 "”。 垃 圾 网 页 是 用 于 直接 进行 垃圾 行为 的 网 页 ， 或 者 得 分 因 其 他 垃圾 
网 页 而 人 为 提高 的 网 页 。[1256] 给 出 了 另 一 种 垃圾 的 定义 ， 即 “任何 欺骗 搜索 引擎 相关 性 
算法 的 企图 ”， 或 者 ， 极 端 地 说 ,“ 如 果 搜 索引 擎 不 存在 ， 就 不 去 做 的 任何 行为 ”。 

已 有 很 多 垃圾 索引 技术 ， 随 着 垃圾 制造 者 和 搜索 引 警 公司 之 间 的 斗争 ， 新 的 技术 会 继续 
被 发 明 。 一 个 垃圾 网 页 可 能 包括 一 个 出 现 次 数 异 常 高 的 关键 词 ， 或 者 包含 其 他 一 些 通常 与 基 
于 内 容 的 垃圾 检测 技术 [1216，512] 斗争 的 文本 特征 。 链 接 垃圾 包括 链接 农场 ， 它 或 者 在 
同一 个 拥有 者 的 网 页 之 间 创 建 一 个 复杂 的 链接 结构 ， 或 者 串通 舱 骗 搜索 引擎 。 点 击 垃圾 通过 
特殊 的 软件 机 器 人 来 实现 ， 它 发 出 特定 的 查询 请 求 ， 然 后 点 击 预先 选择 的 需要 提升 的 网 页 。 
第 三 种 更 复杂 的 方法 是 程序 垃圾 ，Web 垃圾 制造 者 在 网 页 中 注 人 JavaScript 的 代码 片段 。 
当 在 客户 端 执行 时 ， 这 段 代码 显示 给 用 户 的 信息 和 从 搜索 引擎 中 门 取 的 不 同 〈 这 是 一 种 称 为 
伪装 (cloaking) 的 特定 形式 ) 。 

有 些 人 通常 将 Web 垃圾 和 搜索 引擎 优化 (Search Engine Optimization, SEO) WRM. 
然而 ， 当 网 络 管理 员 按照 大 多 数 搜索 引擎 提供 的 指引 ， 使 他 们 的 网 页 容易 被 发 现时 ， 这 样 的 
SEO 技术 是 合法 的 。 相 反 ， 恶 意 的 SEO 被 Web 垃圾 制造 者 用 于 欺骗 用 户 和 搜索 引擎 。 关 于 
这 个 话题 的 另外 一 个 绝 佳 的 信息 来 源 是 Matt Cutt 就 SEO 张贴 在 其 博客 上 的 内 容 ” ER, 
确定 Web 垃圾 是 Web 挖掘 应 用 的 一 个 重要 例子 ， 相 关 话 题 在 11. 10. 2 中 讨论 。 


11.6 管理 Web 数据 
在 本 节 中 ， 我 们 主要 探讨 与 搜索 引擎 需要 存储 和 管理 的 Web 数据 相关 的 一 些 问 题 。 


11. 6. 1 为 文档 分 配 标 识 


AMA ERLE, RAK RAN URL 的 顺序 。 数 值 标识 符 在 某 些 数 
据 结构 中 用 来 代表 URL。 除 了 倒 排 表 外 ， 它 们 可 以 用 于 Web 图 中 的 结 点 编号 ， 以 及 在 搜索 
引擎 资源 库 中 标记 文档 。 

在 参考 文献 中 已 经 表明 ， 对 文档 小 心地 排序 所 形成 的 标识 符 分 配方 法 ， 可 以 使 索引 和 
Web 图 存储 方法 都 能 受益 [1333，222，209，1482，206，1480，1739]。 同 时 ， 基 于 全 局 





© Matt Cutts 给 出 了 关于 欺骗 性 JavaScript 的 有 趣 例 子 ， 见 http://www. mattcutts. com/blog/seo-mistakes-sneaky- 
javascript/ 。 


© http: // www. mattcutts. com/blog/type/geogleseo/. 
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排序 方案 的 标识 符 分 配 可 以 简化 结果 的 排序 〈 见 11.5.3 节 ) 。 

关于 倒 排 表 的 压缩 ， 如 Silvestri 在 [1480] 中 所 提出 的 那样 ， 通 过 对 所 有 引用 文档 集中 
Web 文档 的 URL 进行 排序 ， 可 以 得 到 一 个 十 分 高 效 的 映射 。 对 URL 列表 按照 字典 序 的 升 
序 分 配 标 识 符 能 够 提高 压缩 率 。Silvestri 已 经 在 经 验 上 验证 的 一 个 假设 是 ， 共 享 某 些 关联 或 
判别 性 词语 的 文档 很 可 能 被 用 在 同一 个 站 点 中 ， 所 以 它们 的 URL 有 较 大 的 公共 前 级 。 实 验 
验证 了 这 个 假设 : 应 用 URL 排序 技术 ， 压 缩 率 可 以 提高 到 0.4。 而 且 ， 对 数 百 万 个 URL 进 
行 排序 只 花费 几 十 秒 ， 并 且 只 需要 几 百 兆 的 主 存 。 


11.6.2 元 数据 


正如 在 11. 4.1 节 讨论 的 那样 ，200 亿 个 URL 在 使 用 压缩 格式 的 情况 下 ， 需 要 至 少 1TB 
的 空间 来 存储 相应 网 页 的 元 数据 式 。 有 效 地 管理 如 此 大 规模 的 信息 必然 需要 快速 和 空间 高 效 
的 数据 库 ， 从 而 又 需要 可 用 的 高 效 文件 系统 。 

谷歌 的 BigTable[356] 可 能 是 Web 规模 数据 库 最 好 的 例子 。BigTable 当前 被 用 来 在 分 
布 式 系统 中 存储 数据 ， 通 常 应 用 Map-Reduce 范式 来 生成 和 修改 [485] (E 10.5 节 )。Big- 
Table 不 是 一 个 传统 的 数据 库 ， 而 是 如 作者 所 描述 的 “一 个 稀 朴 的 分 布 式 多 维 有 序 映射 ”， 
并 且 设 计 成 可 扩展 到 在 “成 百 上 千 台 计算 机 ”上 的 PB 规模 。BigTable 可 以 在 系统 中 加 入 机 
器 ， 并 且 不 需要 任何 重新 配置 就 可 以 使 用 它们 。 

作为 数据 库 ，BigTable 兼 具 了 面向 行 和 面向 列 的 数据 库 的 特点 。 每 个 表 有 很 多 维 ， 这 
些 值 以 压缩 的 形式 保存 ， 它 被 优化 成 面向 底层 文件 系统 ， 如 谷歌 文件 系统 (GFS) [623]. 

一 个 受 BigTable 启发 的 开源 数据 库 是 HBaseL725]。HBase 也 是 一 个 用 Java 编写 的 分 
布 式 数据 库 ， 它 在 Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) 
[726, 240] 上 运行 ， 为 Hadoop (Map-Reduce 的 一 个 开源 版 本 ) 1691] 提供 了 类 似 Big- 
Table 的 功能 。HBase 是 面向 列 的 ， 支 持 压 缩 ， 在 内 存 中 操作 ， 并 使 用 Bloom filter, 

其 他 可 选 方案 包括 HypertableL800] 和 Cassandra[L341]。 特 别 地 ，Cassandra 在 一 个 类 
似 于 亚马逊 Dynamo 的 基础 设施 上 运行 ， 因 此 能 最 终 保 持 一 致 。Dynpamo[486] 是 亚马逊 私 
有 的 键 - 值 存 储 系统 ， 它 有 很 高 的 可 用 性 ， 并 且 将 数据 库 和 分 布 式 散 列表 的 特性 结合 起 来 
CHL 10. 8 47). 


11.6.3 Æ Web 图 


Web 图 可 以 通过 邻接 表 来 表示 。 基 本 上 ， 对 于 图 中 的 每 个 结 点 v， 它 们 包含 了 从 可 达 
的 顶点 列表 。 据 观察 ， 几 乎 所 有 链接 的 80% 是 本 地 的 ， 也 就 是 说 ， 它 们 指向 同一 个 站 点 的 
网 页 。 根 据 这 个 观察 ， 为 相同 网 站 的 URL 分 配 相近 的 标识 符 〈 如 11. 6. 1 节 讨 论 的 )， 这 将 
明显 导致 邻接 表 包 含 非常 相近 的 标识 符 。 对 这 些 列表 进行 4 间距 压缩 ， 会 产生 一 个 有 很 长 
的 1 间距 的 邻接 表 。 

利用 这 一 点 和 Web 图 特有 的 元 余 可 以 达到 极 高 的 压缩 率 。 压 缩 Web 图 的 目的 不 仅 是 提 
供 简洁 实用 的 数据 结构 ， 而 且 为 了 更 快速 地 访问 ， 因 为 链接 分 析 和 其 他 应 用 需要 Web A. 
举例 来 说 ，WebGraph 框架 [222] 将 典型 的 Web 图 压缩 到 大 概 每 个 链接 3 位 ， 在 几 百 纳 秒 
内 为 链接 提供 访问 ， 并 对 这 个 主题 的 早期 工作 [197，1333，14] 进行 了 改进 。 


11.6.4 处 理 重 复数 据 
这 个 问题 有 两 种 。 一 种 是 检测 指向 相同 网 页 ， 并 且 会 在 显示 时 加 入 宛 余 和 噪声 信息 的 多 
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个 URL (例如 镜像 ); 另 一 种 是 检测 指向 部 分 重复 内 容 的 多 个 URL (部 分 去 重 能 够 用 来 改 
善 排序 和 检测 垃圾 )。 识 别 重复 也 减少 了 需要 检索 和 处 理 的 文档 集 的 大 小 。 

对 重复 网 页 的 定义 并 不 那么 显而易见 。 如 具有 相同 正文 但 是 不 同 HTML 格式 (或 
CSS) 的 两 个 网 页 会 有 不 同 的 布局 。 这 样 ， 如 果 我 们 要 求 重 复 页 面 的 所 有 内 容 都 相同 ， 那 么 
它们 就 不 会 被 视 为 是 重复 的 。 事 实 上 ， 大 多 数 镜 像 系 统 的 实现 正 是 依据 这 个 要 求 ， 它 意味 着 
可 以 通过 对 整个 文档 计算 散 列 值 来 检测 重复 。 所 使 用 的 散 列 函数 应 该 很 容易 计算 ， 冲 突 的 概 
率 也 比较 小 〈 也 就 是 说 两 个 不 同文 档 的 散 列 值 应 该 不 同 ) 。 经 常用 于 此 目的 的 标准 散 列 函数 
有 MD (Message Digest, M EWE) 以 及 SHA (Secure Hash Algorithms， 安 全 散 列 算 
法 )。 如 果 检 测 重 复 时 不 考虑 格式 ， 那 么 在 去 除 HTML 文档 的 所 有 格式 指令 后 ， 相 同 的 方 
法 也 可 以 使 用 。 

近似 重复 问题 处 理 起 来 更 为 复杂 。 近 似 重 复 的 一 个 例子 是 仅仅 因为 修改 日 期 或 自动 添加 
页 脚 而 不 同 的 镜像 网 页 ， 通过 散 列 无 法 检测 出 它们 。 检 测 近 似 重复 的 一 个 方法 是 使 用 余 改 距 
离 作为 相似 度 度量 C 6. 5.3 节 )。Kolcz BA [927] 提出 了 一 种 优化 方法 ， 假设 那些 十 分 
常见 的 词语 会 同时 出 现在 每 个 文档 中 ， 因 此 需要 被 忽略 。 这 相当 于 在 统计 意义 上 定义 了 一 些 
禁用 词 。 他 们 的 报告 显示 ， 以 返回 相似 度 超 过 90% 的 文档 为 目标 ， 只 使 用 那些 在 少 于 5% 的 
文档 中 出 现 的 词 ， 性 能 可 以 提高 一 个 数量 级 。 

另 一 个 方法 是 使 用 6. 5.3 节 中 定义 的 类 似 度 的 方法 。 在 这 种 情况 下 ， 我 们 能 够 选择 函数 
W 〈 通 常 使 用 片段 (shingle))， 挑 选 出 最 佳 阔 值 :， 以 确保 高 效 的 计算 [267]。 在 余弦 和 类 
似 度 两 种 情况 中 ， 如 果 两 个 文档 的 相似 度 〈 距 离 ) 大 于 (小于) 阔 值 :， 就 认为 它们 是 重 
复 的 。 

有 多 个 拟 合 距 离 的 优化 方法 ， 它 们 在 效率 和 错误 率 上 有 所 不 同 ， 如 COPS[ 262]、KOA- 
LA[742] 和 DSCL267]。 第 一 种 方法 是 使 用 每 一 个 片段 的 散 列 值 ， 它 基于 Karp 和 Rabin 用 
来 搜索 文本 的 文本 指纹 方法 L877]。 也 就 是 说 ， 散 列 值 可 以 在 线性 时 间 上 增 量 地 计算 。 第 二 
种 方法 是 只 考虑 其 中 的 某 些 片段 ， 形 成 超级 片段 (super shingle) [742，269]。 两 种 优化 都 
减少 了 计算 中 需要 比较 的 次 数 。 事 实 上 ， 如 果 每 个 文档 的 片段 个 数 是 不 变 的 ， 比 如 个 超级 
片段 ， 那 么 重复 检测 可 以 在 线性 时 间 内 完成 。 

后 来 ，Chowdhury 等 人 [380] 提出 了 I-Match 算法 来 计算 每 个 文档 的 散 列 码 ， 它 不 考 
虑 太 稀 朴 或 太 频 繁 的 词 。 他 们 表明 ， 在 最 坏 的 情况 下 ， 算 法 对 于 有 a 个 文档 的 集合 来 说 是 
OCdlogd) 级 的 ， 但 在 实践 中 是 O(d) 级 的 。 他 们 也 表明 它 比 超级 片段 算法 表现 得 更 好 ， 部 
分 原因 是 ， 如 果 小 文档 只 包含 常用 的 或 者 不 频繁 的 词 ， 那 么 它们 是 根本 不 用 考虑 的 。 在 邮件 
垃圾 处 理 [926] 等 应 用 中 这 是 一 个 缺点 ， 那 里 我 们 需要 删除 小 的 重复 。 另 一 方面 ， 在 Web 
中 这 可 能 不 是 个 问题 ， 因 为 小 的 重复 文档 不 会 经 常 出 现在 答案 排序 的 前 面 。 


11.7 搜索 引擎 用 户 交 互 


Web 搜索 引 苟 服务 于 数 亿 个 用 户 ， 他 们 申 的 大 多 数 都 很 少 具 有 技术 背景 。 因 此 ， 界 面 
设计 已 经 被 极 简 规则 深 深 地 影响 。 
极 简 规 则 (Extreme Simplicity Rule)。 用 户 搜索 体验 的 设计 ， 即 用 户 与 搜索 引 
掌 交互 的 模式 ， 必 须 假设 用 户 对 搜索 任务 知之 其 少 ， 并 且 必 须要 求学 习 的 东西 越 少 
越 好 。 事 实 上 ， 比 起 阅读 搜索 引擎 的 帮助 页 面 ， 用 户 通常 更 愿意 阅读 新 的 冰箱 或 
DVD 播放 器 的 “用 户 手 册 ”。 这 种 状况 的 一 个 直接 后 果 是 ， 当 和 搜索 引擎 交互 时 ， 
没有 “得 到 结果 ”的 用 户 ， 很 可 能 简单 地 转换 到 另 一 个 搜索 引擎 来 解决 问题 。 在 这 
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种 情况 下 ， 极 简 性 就 成 为 Web 搜索 中 用 户 交互 的 一 个 规则 。 

在 本 节 中 ， 针 对 最 流行 的 搜索 引擎 ， 我 们 描述 典型 的 用 户 交 互 模型 、 最 近 的 创新 ， 以 及 
在 这 种 极 简 规则 下 所 面 对 的 挑战 。 这 里 讨论 的 一 些 用 户 交 互 的 概念 已 经 在 第 2 章 中 介绍 过 
了 ， 但 是 这 里 通过 一 些 主要 的 Web 搜索 引擎 ， 如 Ask. com、 必 应 (Bing)、 谷 歌 (Google) 
和 雅虎 (Yahoo!) 等 提供 的 用 户 体验 更 深入 地 研究 。 这 里 不 讨论 “垂直 ”搜索 引擎 ， 只 限 
于 特定 知识 领域 的 搜索 引擎 ， 如 Yelp 或 Netflix? ， 或 者 主要 搜索 引擎 的 垂直 部 分 ， 如 谷歌 
图 像 搜 索 或 雅虎 问答 。 


11.7.1 搜索 和 矩形 范式 


用 户 现在 已 习惯 于 通过 在 搜索 “矩形 ”中 制定 查询 来 阐述 他 们 的 信息 需求 。 这 种 互动 模 
式 已 经 非常 流行 ， 以 至 于 很 多 网 站 在 主页 的 突出 区 域 ， 都 有 一 个 矩形 搜索 框 ， 即 使 搜索 技术 
是 第 三 方 提供 的 。 为 了 说 明 这 点 ， 图 11-10 显示 了 Ask、 必 应 、 谷 歌 和 雅虎 搜索 的 搜索 框 。 
搜索 矩形 的 设计 一 直 非 常 稳 定 ， 谷 歌 的 主页 在 过 去 的 10 年 基本 上 都 没有 变化 。 Ask 和 必 应 
等 其 他 引擎 允许 一 些 更 花哨 的 设计 ， 带 有 多 彩 皮肤 和 有 趣 的 地 点 或 对 象 的 漂亮 图 像 〈 例 如 
图 11-10 中 Ask 的 金门 大 桥 背 景 ) 。 尽 管 有 这 些 趋势 ， 搜 索 矩 形 仍然 是 所 有 搜索 引擎 的 中 心 。 
这 个 矩形 通常 也 称 为 “搜索 框 ”， 如 第 2 章 所 介绍 的 。 
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图 11-10 ”四 个 主要 的 搜索 引擎 将 搜索 矩形 当做 用 户 界 面 的 中 心 组 件 ( 分 别 来 自 Ask、 必 应 、 谷 歌 
和 雅虎 。Ask screenshot，@IAC Search & Media, Inc. 2010. 版 权 所 有 。ASK. COM. ASK 
JEEVES, ASK 的 logo, ASK JEEVES 的 logo， 以 及 其 他 出 现在 Ask. com 和 Ask Jeeves 网 
站 的 商标 归 TAC Search & Media 公司 及 其 许可 证 颁发 者 所 有 ) 


虽然 在 搜索 页 面 的 中 心 显示 搜索 矩形 是 最 受 青睐 的 布局 风格 ， 但 也 有 一 些 其 他 方案 : 

。 有 些 Web 门户 在 主页 的 一 个 特别 区 域 檬 人 搜索 和 矩形。 这 个 方法 的 例子 由 yahoo. com 
或 aol. com 提供 。 

。 许多 网 站 有 一 个 高 级 搜索 界面 ， 它 为 用 户 提供 一 个 由 很 多 “和 矩形 ”和 选项 组 成 的 表 
单 〈 很 少 使 用 ) 。 

。 搜索 工具 栏 被 大 部 分 搜索 引 警 作为 浏览 占 插 件 提供 ， 或 内 嵌 在 Firefox 等 浏览 器 中 ， 

”可 以 看 成 中 心 搜索 矩形 的 精简 版 本 。 由 于 在 任何 时 候 都 可 以 访问 ， 因 此 它们 是 主页 
搜索 矩形 的 一 个 更 方便 的 替代 品 ， 但 它们 需要 下 载 安 装 ， 这 阻碍 了 更 广泛 的 应 用 。 
注意 ， 为 了 弥补 这 种 开销 ， 很 多 搜索 引擎 会 与 PC 分 发 或 制造 商 协商 ， 提 供 优惠 价 
格 的 OEM， 从 而 预 装 他 们 的 工具 栏 。 





© http://www. yelp. com, 
© http://www. netflix. com. 
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。 由 谷歌 Chrome 的 “omnibox” 所 推出 的 “终极 ”和 矩形， 合并 了 地 址 栏 和 搜索 栏 的 功 
能 。 由 浏览 器 来 决定 用 户 输入 的 文本 是 想 要 浏览 某 个 网 站 还 是 进行 搜索 。 在 omni- 
box 推出 之 前 ，Firefox 已 经 提供 了 一 个 功能 ， 用 来 识别 出 某 些 词 可 能 不 是 URL 的 
一 部 分 ， 应 被 视 为 查询 的 一 部 分 。 在 这 些 情况 下 ， 它 会 触发 谷歌 的 “手气 不 错 A 
feel lucky)” 功 能 ， 返 回 搜索 结果 前 面 的 部 分 。 有 趣 的 是 ， 这 个 Firefox 功能 是 可 以 
定制 的 ， 允 许 用 户 触 发 谷歌 以 外 的 搜索 引擎 ， 或 者 获得 完整 的 搜索 结果 页 。 

1. 查询 语言 

如 7.1.1 节 解释 的 ， 用户 通 过 一 个 词语 序列 来 表示 他 们 的 查询 。 事实 上 ,在 “自由 文 
本 ”查询 和 布尔 查询 的 捍卫 者 很 多 年 的 论战 之 后 ，Web 搜索 引擎 基本 上 赢得 了 这 场 战 斗 。 
因此 ， 自 由 文本 格式 已 经 变 成 Web 搜索 引擎 事实 上 的 标准 查询 语言 。 现 在 的 用 户 通常 输入 
一 个 词语 序列 来 描述 他 们 的 信息 需求 [268] 或 目标 [1382]。 有 些 搜索 引擎 宣称 查询 的 隐 含 
语义 是 所 有 词 的 “AND” 操 作 ， 谷 歌 等 其 他 引擎 则 宣称 “每 个 词 是 有 关系 的 "。 大 多 数 搜索 
引擎 保留 按 需 改变 语义 的 权利 ， 因 此 额外 的 操作 符 ， 如 “十 ”不 保证 在 未 来 是 否 会 存在 。 

事实 上 ， 尽 管 所 有 搜索 引擎 的 大 多 数 主流 查询 语言 是 词语 的 序列 ,但 Web 搜索 引擎 都 
默认 一 个 基本 的 查询 语法 。 查 询 语言 通常 由 “十 ”、“ 一 ”和 “site:” 等 一 元 操作 符 来 限定 紧 
随 的 词 ，OR 等 二 元 操作 符 来 操作 前 导 和 后 继 的 词 ， 或 者 由 双 引 号 等 分 隔 符 来 表明 精确 的 短 
语 匹 配 。 

大 多 数 搜索 引擎 没有 公布 正式 的 查询 语言 ， 而 是 在 它们 的 网 站 上 提供 了 搜索 提示 或 选 
项 。 表 11-3 比较 了 一 些 领先 的 搜索 引擎 在 关联 页 面 中 提供 的 提示 /选项 ， 其 中 包括 Ask. com 
[76j、 必 应 [202，203]、 谷 歌 [652] 和 雅虎 搜索 [1736j]。 这 个 表 没 办 法 非常 详尽 ， 因 为 
有 些 查 询 操 作 符 是 在 隐藏 模式 下 实现 的 ， 而且 在 其 他 地 方 公布 的 。 这 样 的 例子 有 谷歌 的 
“numrange (数值 范围 )” 功 能 [650]， 它 是 在 2004 年 宣布 的 ， 它 允许 用 户 通 过 在 两 个 数字 
间 输 入 “.. ”来 指示 数字 的 范围 。 例 如 ， 查 询 “DVD 播放 器 100. . 300 美元 ”匹配 [100， 
300] 范围 内 的 任何 一 个 数字 ， 例 如 250。 在 表 11-3 中 ， 我 们 关注 于 众所周知 的 “稳定 ” 操 
作 符 ， 而 不 是 我 们 刚才 描述 的 、 像 “numrange” 那 样 ， 具 有 强大 的 处 理 功能 的 操作 符 。 


表 11-3 常见 的 查询 操作 符 











































操作 符 语 法 细节 谷歌 雅虎 搜索 必 应 Ask 
“..” 双 引号 围绕 一 个 字符 串 短语 搜索 是 是 是 是 
十 前 面 是 一 个 空格 ， 处 理 后 面 这 个 操作 符 保 证 相关 联 的 项 在 是 
立即 跟随 的 项 /短语 结果 中 按照 现在 的 样子 被 包含 
一 前 面 是 一 个 空格 ， 处 理 立 即 跟 这 个 操作 符 保证 相关 联 的 项 不 是 
随 的 项 /短语 ， 必 应 也 使 用 NOT 出 现在 任何 结果 中 
ee e a fel 
sites ARMEA A | 从 特定 站 点 返回 结果 。 | 是 | 是 | 是 | æ 
wua SORTA | AWEERERER — | a | a | a | = 
检查 下 面 的 URL 在 搜索 引擎 中 
inurl; 后 面 跟随 一 个 项 返回 URL 中 包含 特定 项 的 结果 是 F 是 
intitle: 后 面 跟 随 一 个 项 返回 标题 中 包含 特定 项 的 结果 是 是 是 
inlink: /inanchor: 后 面 跟随 一 返回 链接 或 锚 文 本 元 数据 中 包 5 是 


个 项 含 特定 项 的 结果 
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除了 这 些 常见 的 操作 符 外 ， 下 面 列 出 了 一 些 由 单一 搜索 引擎 所 支持 的 独特 操作 符 。 关 注 
它们 的 用 途 ， 并 确认 随 着 时 间 的 推移 ， 它 们 是 否 被 其 他 搜索 引擎 采用 ， 这 将 是 很 有 趣 的 。 

。 Ask 的 时 间 操 作 符 : 

O afterdate: , beforedate: 
上 面 的 操作 符 后 面 跟随 一 个 yyyymmdd 格式 的 日 期 ， 分 别 返回 在 给 定时 间 之 后 或 
之 前 发 生 的 查询 结果 。 

O betweendate; 
这 个 操作 符 以 类 似 的 方式 工作 ， 但 是 接受 由 两 个 逗号 隔 开 的 yyyymmdd 格式 的 
日 期 。 

O last: 
这 个 操作 符 跟 着 一 个 给 定 的 时 间 区 间 ， 有 下 面 6 种 取 值 ，{ week，2weeks， 
month，6months，year，2years}) ， 返 回 在 这 个 特定 时 间 区 间 内 找到 的 结果 。 

。 必 应 : 

O And/& 
这 个 操作 符 只 有 必 应 搜索 提供 ， 它 表示 前 导 和 后 继 词 语 之 间 的 布尔 “AND”。 很 
有 趣 的 是 ， 必 应 提供 了 这 个 操作 符 ， 尽 管 它 宣称 “ 缺 省 的 搜索 都 是 AND 搜索 ”。 
口 〈) 
括号 是 用 来 将 词语 和 一 或 十 等 其 他 操作 符 组 成 一 组 .这 个 功能 增加 了 其 他 操作 符 
的 能 力 ， 但 估计 是 为 那些 有 数学 或 逻辑 背景 的 用 户 所 保留 的 。 
D 必 应 搜索 有 很 多 独特 的 操作 符 ， 例 如 filetype:. contains:, ip:, feed:, prefer: 
等 ， 有 些 看 起 来 很 有 前 途 ， 有 些 则 没有 。 
。 RK: x 
通配符 代表 一 个 缺失 的 完整 词语 〈 而 不 是 词 的 一 部 分 ) ， 表 明 对 于 搜索 引擎 ， 它 
应 该 被 视 为 一 个 “对 于 任何 未 知 词语 的 占 位 符 ”。 
°. 雅虎 搜索 : link ,跟随 着 一 个 URL 
此 操作 符 返 回 链接 到 给 定 url 的 文档 ， 这 是 由 雅虎 站 点 浏览 工具 所 提供 的 一 个 
功能 。 本 质 上 ， 比 起 操作 符 ， 它 更 应 该 被 认为 是 一 种 到 达 另 一 个 功能 的 快捷 方式 。 
事实 上 ， 雅 虎 搜索 作为 一 个 内 容 提 供 商 ， 在 快速 到 达 其 功能 方面 ， 比 大 多 数 其 他 的 
搜索 引擎 更 强 。 它 允许 通过 一 些 保留 标记 直接 访问 ， 默 认 的 保留 标记 可 以 通过 在 搜 
索 框 中 输入 !list 得 到 。 它 们 包括 如 1!news !flickr, !wiki, !map。 

从 上 面 的 例子 可 以 看 出 ， 可 能 是 根据 使 用 的 情况 ， 主 流 的 搜索 引擎 提供 了 更 少 的 操作 
符 。 可 以 猜测 ， 它 们 很 少 被 使 用 ，Web 事实 上 的 标准 查询 语言 就 是 自由 文本 。 不 过 ， 这 可 
能 会 改变 ， 因 为 后 来 者 会 创新 ， 并 试图 通过 新 的 功能 来 赢得 市 场 。 同 时 ， 并 不 令 人 吃惊 ， 在 
本 书写 作 的 同时 ， 作 为 市 场 中 最 新 的 搜索 引擎 ， 必 应 搜索 提供 了 最 广泛 的 操作 符 ， 可 能 期 待 
着 用 户 通过 使 用 来 表明 他 们 的 喜好 。 

2. 动态 查询 建议 

动态 查询 建议 服务 ， 在 第 2 章 也 称 为 “自动 填充 ”或 “自动 建议 ”， 通 过 交互 功能 丰富 
了 搜索 框 。 当 用 户 在 搜索 框 中 输入 字符 时 ， 查 询 建 议 通 过 下 拉 列 表 将 建议 提供 给 他 们 。 谷 歌 
和 雅虎 提供 的 例子 在 图 11-11 中 显示 。 

这 种 服务 是 谷歌 建议 (Google Suggest) 开创 的 ， 由 Kevin Gibbs 发 明 ，2004 ERE E 
谷歌 实验 室 ， 不 久 后 出 现在 其 工具 栏 中 ,但 没有 出 现在 谷歌 的 主页 上 上， 这 可 能 是 由 于 扩展 性 
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的 问题 。2007 年 ， 雅 虎 搜索 走 在 谷歌 的 前 面 ， 在 yahoo. com 和 search. yahoo. com 上 部 署 了 
搜索 助手 功能 。 有 趣 的 是 ， 雅 虎 放弃 了 之 前 经 典 的 前 缀 完成 模型 ， 因 为 它 也 提供 了 中 间 字 符 
的 填充 ， 雅虎 搜索 为 前 级 “inform” 所 提供 的 “webmd health information” 搜 索 建 议 如 
图 11-11 所 示 。 谷 歌 建 议 随后 也 在 谷歌 主页 上 推出 ， 首 先 在 youtube. com， 然 后 2008 年 8 H 
也 出 现在 google. com 上 。2009 年 年 初 ， 谷 歌 建议 最 终 部 署 到 了 所 有 的 谷歌 域名 上 。 其 他 的 
搜索 引擎 在 快速 地 追赶 ， 类 似 的 服务 也 出 现在 美国 的 Ask 和 必 应 搜索 上 ， 甚 至 在 Ama- 
zon. com 等 具有 足够 流量 的 垂直 搜索 服务 中 。 注 意 ， 如 第 2 章 讨论 的 ，Netflix 或 nextbio 等 
垂直 搜索 引擎 的 查询 填充 服务 是 语料库 驱动 的 ， 而 不 是 查询 驱动 的 ， 因 此 不 能 扩展 到 
Web 上 。 


inform, Search j ww YAHOO l, 





图 11-11 谷歌 建议 和 雅虎 搜索 助手 


今天 ， 大 多 数 用 户 享受 了 这 些 服务 的 便利 ， 而 不 关注 它们 。 按 照 我 们 前 面 提 到 的 极 简 规 
则 来 说 ， 这 对 于 搜索 引擎 用 户 交互 范畴 来 说 可 能 是 至 高 无 上 的 赞美 。 

动态 查询 建议 应 该 区 别 于 只 在 查询 发 出 后 运行 的 查询 建议 系统 。 动 态 建议 系统 需要 很 少 
量 的 信息 ， 它 们 的 主要 输入 是 前 缀 而 不 是 一 个 良 构 的 查询 。 不 过 它们 在 处 理 过 程 中 可 以 应 用 
搜索 引擎 可 以 使 用 的 所 有 额外 信和 号， 只 要 这 些 信 和 号 既 可 以 利用 又 不 影响 响应 时 间 。 这 些 额 外 
的 信号 包括 可 用 的 用 户 历史 和 个 性 化 特征 、 地 理 信 号 ， 也 可 能 是 同一 用 户 会 话 中 之 前 的 
查询 。 

动态 查询 系统 不 是 全 新 的 ， 类 似 的 功能 在 Emacs[1527] 等 早期 编辑 器 也 曾 有 提供 ， 它 
支持 命令 填充 或 Kom shell 等 shell 脚本 [224]， 根 据 要 求 ， 当 用 户 输入 一 个 制 表 符 或 空格 
字符 时 ， 会 填充 命令 以 及 文件 /目录 名 。 之 后 在 移动 领域 ， 也 提供 了 这 样 的 辅助 服务 来 减少 
在 烦琐 键盘 上 需要 输入 字符 的 数量 [66，1233]。 这 些 早 期 的 特征 与 现代 的 动态 查询 建议 最 
主要 的 不 同 是 : 

D 现代 建议 语料库 的 来 源 和 规模 。 

2) 性 能 要 求 ， 因 为 现代 的 建议 服务 需要 同时 服务 大 量 的 用 户 (而 不 是 在 单个 应 用 /设备 
上 的 单个 用 户 ) 。 

3) 用 户 体验 的 智慧 ， 根 据 用 户 输入 自动 地 触发 现代 建议 ， 而 不 是 通过 请 求 。 

随 着 Web 环境 中 搜索 流量 和 性 能 的 不 断 提高 ， 这 两 个 主要 变化 使 应 对 这 些 挑战 成 为 可 
能 。 事 实 上 ， 搜 索 流 量 令 人 难以 置信 的 增长 使 得 搜索 引擎 聚集 了 巨大 的 查询 语 料 ， 可 以 用 来 
为 所 有 的 用 户 服务 。 通 过 使 用 查询 日 志 而 不 是 手头 的 语料库 作为 主要 的 数据 源 ， 可 以 使 用 更 
接近 的 语言 模型 来 给 用 户 展示 更 “自然 ”的 建议 ， 这 就 增加 了 精度 。 此 外 ， 在 Web 搜索 中 
巨大 的 性 能 提高 允许 集中 化 的 服务 ， 其 平均 负载 (qps， 即 每 秒 处 理 查询 数 ) 5 倍 于 常规 搜 
索 。 在 默认 情况 下 ， 每 当 输入 一 个 新 的 字符 时 ， 就 会 发 送 一 个 请 求 给 服务 器 ， 相 关 的 建议 需 
要 很 快 返回 ， 因 为 用 户 仍然 正在 输入 查询 。 
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有 趣 的 是 ， 要 给 用 户 带 来 价值 ， 动 态 建议 服务 必须 克服 经 典 信息 检索 的 两 个 挑战 。1) A 


率 : 尽快 地 返回 建议 ， 使 得 建议 可 用 ; 2) 有 效 性 : 给 出 最 相关 的 建议 。 


。 效率 。 快 速 的 响应 时 间 通 常 是 通过 两 种 途径 实现 的 。 首 先 ， 如 Ji 等 人 [834] 所 提 

出 的 ,与 给 定 前 级 相关 联 的 候选 必须 以 一 种 有 效 的 数据 结构 预先 计算 和 存储 ， 以 保 

证 在 查询 时 最 少 地 处 理 。 其 次 ， 它 们 需要 快速 服务 ， 通 常 使 用 分 布 式 数据 中 心 来 完 

MR. Ba. BRAH JavaScript 建议 代码 应 该 尽 可 能 地 精简 ， 并 且 为 安全 

起 见 ， 不 要 阻止 用 户 立 即 给 出 查询 ， 以 防止 花费 比 预 期 更 多 的 时 间 。 

有 效 性 。 给 定 在 矩形 框 中 输入 的 字符 串 ， 从 极端 情况 下 的 一 个 到 几 十 个 字符 ， 动 态 

建议 服务 基本 返回 5 〈 如 搜索 主页 上 的 雅虎 助手 ) 到 10 个 候选 查询 (如 谷歌 建议 或 

雅虎 结果 页 面 ) 组 成 的 列表 。 相 关 性 的 主要 标准 是 流行 度 ， 不 仅 反 映 在 查询 日 志 

的 出 现 频率 ， 还 根据 (可 能 的 话 〉 点 击 率 等 附加 信息 来 反映 。 需 要 考虑 很 多 技术 问 

题 来 确保 相关 性 ， 如 下 所 示 : 

口 自动 拼写 校正 。 给 出 一 个 错误 拼写 的 查询 建议 是 十 分 奇怪 的 ， 即 便 它 比较 流行 。 事 
实 上 ， 因 为 查询 日 志 语 料 库 显著 地 小 于 Web 语料库 ， 所 以 , 虽然 “群体 智慧 ” 
[1546] 原则 对 于 下 面 讨论 的 拼写 功能 有 很 好 的 作用 ,但 对 于 查询 日 志 的 长 尾部 分 可 
能 就 没有 那么 有 用 了 。 这 个 “小 语料库 挑战 ”在 有 相对 较 少 Web 内 容 的 国家 或 者 在 
企业 搜索 中 比较 常见 。 它 不 仅 影响 查询 的 自动 拼写 修正 建议 ， 而 且 还 会 影响 某 些 通 
过 群体 智慧 建立 的 其 他 功能 ， 如 本 节 介 绍 的 那样 。 

O 过 滤 不 适当 的 建议 。 不 适当 的 查询 ， 通 常 包 括 色 情 或 仇恨 ， 仍 然 在 查询 日 志 中 占有 
很 大 的 比例 。 它 们 需要 被 过 滤 ， 以 避免 伤害 用 户 以 及 遵守 当地 的 法 律 。 此 外 ， 比 起 
在 常规 搜索 的 情况 ， 垃 圾 是 一 个 更 尖锐 的 问题 ， 特 别 在 查询 的 长 尾部 分 ， 因 为 它们 
不 经 常 被 观察 到 ， 更 容易 欺骗 。 

O 查询 建议 去 重 。 当 提 及 一 个 十 分 流行 的 主题 时 ， 可 能 只 有 细微 的 不 同 ， 但 表达 相同 
信息 需求 的 查询 ， 虽 然 在 相关 性 方面 都 是 符合 的 ， 但 是 没有 给 用 户 增 加 任何 价值 ， 
因此 是 恼人 的 。 如 复数 形式 和 词语 的 不 同 顺序 。 动 态 建议 努力 识别 这 些 准 重复 
(quasi-duplication) ， 并 从 建议 框 中 识别 最 有 代表 性 的 部 分 。 

O 建议 的 多 样 性 。 这 个 问题 是 与 前 一 个 主题 相关 的 ， 但 是 一 个 更 微妙 的 方式 。 对 于 一 
个 给 定 的 前 缀 ， 查 询 填充 的 某 些 含义 可 能 占据 了 主导 地 位 ， 以 至 于 罕见 的 含义 可 能 
没有 机 会 得 以 显示 。 这 就 会 有 一 个 危险 : 流行 的 查询 变 得 更 流行 〈 富 者 更 富 的 情 
形 )， 因 此 ， 对 于 有 趣 的 主题 ， 可 能 会 看 到 其 相关 性 得 分 缓慢 地 下 降 ， 直 到 它们 因为 
缺少 点 击 而 最 终 从 建议 列表 中 去 除 。 

O 新 鲜 度 。 热 门 的 主题 是 有 趋势 的 ， 通 常 跟随 新 闻 出 现 ， 用 户 不 能 等 待 动态 系统 重新 
生成 自己 的 索引 ， 以 使 这 些 热门 主题 可 见 。 因 此 ， 和 需要 区 别 对 竺 新鲜 的 建议 ， 如 索 
引 动 态 搜索 语料库 时 的 情况 。 

O 个 性 化 。 这 是 指 用 户 和 区 域 的 个 性 化 。 用 户 可 以 在 浏览 器 的 搜索 框 中 看 到 他 们 过 去 
的 查询 历史 ， 他 们 可 能 不 愿意 丢失 它们 。 然 而 ， 如 果 用 户 没 有 登录 ， 同 时 显示 个 人 
查询 和 社区 查询 也 许 是 不 可 能 的 ， 甚 至 给 人 留 下 隐私 被 侵犯 的 印象 。 社 区 /区 域 个 性 
化 更 为 关键 ， 因 为 兴趣 和 流行 度 在 不 同 的 位 置 和 文化 间 相 差 很 多 。 对 于 前 缀 “real”， 
第 一 个 查询 建议 是 “Real Madrid”， 而 不 是 “real player”， 在 美国 的 用 户 可 能 会 惊 
讶 ， 然 而 在 西班牙 的 用 户 如 果 没 有 得 到 这 样 的 结果 才 会 震惊 。 在 最 低 的 要 求 下 ， 根 
据 国 家 的 个 性 化 建议 是 非常 重要 的 。 这 也 可 能 需要 越 来 越 精 细 地 对 地 理 位 置 进 行 个 





486 


487 


356 + 11 Web 检索 


性 化 。 事 实 上 ， 当 在 阿拉 斯 加 的 用 户 给 出 查询 “pizza” 时 ， 如 果 仅 仅 因 为 其 流行 度 
不 同 ， 第 一 个 查询 建议 是 “pizza palo Alto” 或 者 “pizza Manhattan Upper West 
Side”， 那 么 他 可 能 会 非常 恼火 。 技 术 挑战 是 ， 当 在 越 来 越 小 的 语料库 上 工作 时 ， 需 
要 搜集 足够 的 证 据 来 保持 高 精度 。 

总 体 而 言 ， 动 态 建 议 的 有 效 性 能 够 通过 覆盖 度 和 质量 (召回 率 和 精度 的 一 种 ) 来 衡量 。 
取得 很 好 的 覆盖 度 ， 也 就 是 说 用 户 总 是 希望 将 建议 框 中 分 配 的 空白 填 满 ， 当 前 缀 变 长 时 ， 这 
就 变 得 极其 棘手 。 前 缀 越 长 ， 命 中 长 尾 查 询 的 可 能 性 越 高 ， 这 样 就 没有 充分 的 证 据 来 将 查询 
选 为 建议 。 质 量 显 然 也 是 必须 的 ， 因 为 用 户 期 望 查询 服务 可 以 “ 读 懂 他 们 的 心 ”。 大 多 数 用 
户 会 错误 地 认为 ， 查 询 建议 是 “搜索 引擎 的 声音 ”， 而 不 是 实际 中 “用 户 社区 的 声音 ”。 被 名 
字 推 荐 所 冒犯 的 一 些 个 人 和 公司 提起 的 诉讼 [1009，1096] 和 负面 新 闻 说 明了 这 一 点 。 

因此 ， 我 们 认为 动态 建议 服务 会 保留 下 来 ， 并 且 是 一 个 值得 进一步 研究 的 、 有 前 途 的 领 
域 。 它 们 在 搜索 引擎 页 面 占 据 了 极其 突出 的 地 位 。 与 十 年 多 以 前 的 最 早 版 本 相 比 ， 谷 歌 建议 
实际 上 是 谷歌 主页 上 最 容易 看 到 的 变化 。 它 们 代表 了 一 个 明显 的 瓶颈 ， 因 为 提供 错误 的 建议 
会 给 很 大 部 分 S 用 户 带 来 “ 坏 的 查询 ”， 这 可 能 导致 固有 或 广告 搜索 的 结果 变 差 ， 因 此 会 影 
响 整 个 收入 流 。 

此 外 ， 它 们 的 成 功 实现 需要 克服 许多 经 典 信息 检索 的 挑战 。 例 如 ， 读 者 应 该 考虑 上 述 问 
题 的 有 效 性 以 验证 如 下 事实 : 如 果 用 “查询 ”， 取 代 “ 前 级”， 以 及 用 “结果 ”取代 “查询 ”， 
它们 将 使 读者 想起 经 典 的 检索 问题 。 在 查询 建议 的 情况 下 ， 这 些 挑战 以 一 种 更 加 极端 的 形式 
体现 ， 并 带 有 更 严厉 的 有 效 性 和 效率 的 约束 。 


11.7.2 搜索 引擎 结果 页 面 


1. 结果 表示 

(1) 基本 布局 

如 第 2 章 中 讨论 的 那样 ， 搜 索引 擎 结果 页 面 
(Search Engine Result Page, SERP) 的 经 典 显 示 风 
格 包括 一 个 “固有 的 ”或 “算法 的 ”结果 ， 出 现在 
结果 页 面 的 左 侧 S ， 以 及 出 现在 右 侧 的 支付 /广告 结 
R (广告 )。 此 外 ， 最 相关 的 支付 结果 可 能 会 出 现在 
首页 北部 区 域 中 国有 结果 的 顶部 ， 如 图 11-12 所 示 。 
尽管 必 应 等 一 些 搜索 引擎 允许 用 户 自 定义 在 一 页 中 
显示 的 结果 数量 ， 但 默认 情况 下 ， 大 多 数 搜索 引擎 
在 首页 中 显示 10 个 结果 。 

图 11-12 展示 了 大 多 数 搜索 引擎 所 采用 的 布局 ， 
尽管 有 些 例 外 ， 但 它们 大 都 有 相同 的 、 用 虚线 框 表 
示 的 位 置 。 这 些 搜索 引擎 可 能 在 某 些小 细节 上 略 有 
不 同 ， 如 “查询 助手 ”功能 可 能 出 现在 页 面 的 北部 、 -全 
南部 ， 或 西部 区 域 ， 导 航 工 具 可 能 显示 在 西部 区 域 ， 南部 
但 也 可 能 不 显示 ; 拼写 校对 建议 的 位 置 可 能 在 北部 图 11-12 一 个 典型 的 SERP 布局 





O 大 多 数 搜索 引擎 不 公布 其 推荐 服务 的 点 击 率 ， 但 是 有 理由 相信 和 是 两 位 数 。 
加” 对 于 从 右 向 左 书写 的 语言 ， 页 面 右 侧 是 固有 结果 ， 左 侧 是 广告 结果 。 
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区 域 广告 结果 的 前 面 或 者 后 面 。 

搜索 引擎 不 断 地 试验 布局 的 一 些小 变化 ， 而 未 来 可 能 采用 截然 不 同 的 布局 ， 因 为 这 是 一 
个 需要 创新 功能 的 地 方 。 例 如 ，CuilS 介 绍 了 一 种 完全 不 同 于 一 维 排序 的 布局 ， 但 是 这 更 多 
地 是 一 个 例外 ， 而 不 是 应 该 遵循 的 规则 。 相 反 ， 主 搜索 引擎 之 外 的 搜索 功能 常常 是 不 同 的 ， 
以 谷歌 和 雅虎 的 图 像 搜 索 ， 或 者 谷歌 的 广告 搜索 结果 [655] 为 例 ， 它 们 都 跨越 多 个 栏 来 显 
示 结 果 。 

本 节 仅 专注 于 搜索 结果 中 的 固有 部 分 。 从 现在 开始 ， 我 们 将 把 它们 称 为 “搜索 结果 ”， 
请 注意 与 支付 /广告 搜索 结果 的 区 别 。 

(2) 标题 /片段 /URL 实体 

主流 搜索 引擎 使 用 非常 类 似 的 格式 显示 单独 的 结果 ， 它 们 基本 上 包括 : 1) 用 蓝 色 或 下 
划 线 显示 的 标题 ; 2) 由 从 结果 页 面 抽取 的 两 三 个 句子 组 成 的 简短 片段 ; 3) 指向 包含 页 面 全 
文 的 URL。 在 大 多 数 情况 下 ， 标 题 可 以 直接 从 页 面 中 抽取 。 当 一 个 页 面 没 有 标题 时 ， 可 以 
用 指向 它 的 锚 文 本 生成 一 个 标题 。 

如 第 2 章 中 讨论 的 ， 片 段 由 自动 生成 的 摘要 组 成 ， 其 目的 是 在 页 面 中 强调 与 用 户 查 询 相 
关 的 主题 。 片 段 有 助 于 决定 是 否 需 要 点 击 一 个 链接 。 片 段 背后 关键 的 问题 是 ， 它 们 需要 在 运 
行 时 产生 ， 因 为 它们 是 查询 依赖 的 。 另 一 个 非常 重要 的 问题 是 ， 查 询 词 通常 在 片段 中 通过 粗 
体 突 出 显示 ， 这 需要 一 个 字符 匹配 操作 ， 或 者 当 没 有 明显 选择 的 时 候 ， 需 要 智能 地 找到 合适 
的 词 。 例 如 ， 考 虑 Ben Gomes 在 谷歌 博客 中 给 出 的 “arod” 例 子 [L637]， 其 中 “在 搜索 结 
果 片 段 中 Alex 和 Rodrigues 是 用 粗 体 显示 的 ， 它 基于 这 样 的 分 析 : 你 很 有 可 能 指 的 是 他 ”。 
Amitay 等 人 [49] 介绍 了 一 个 用 于 生成 页 面 的 Web 摘要 的 原创 方法 ， 它 依靠 指向 它 的 锚 
文本 。 

当 多 个 结果 来 自 同一 个 站 点 或 域 时 ， 搜 索引 擎 通过 缩 排 回 一 站 点 中 较 不 相关 的 结果 ， 将 
结果 组 合 起 来 。 最 近 比 较 出 色 的 方法 是 “站 内 链接 ”(Sitelink) 或 “快速 链接 ”(Quicklink) 
模式 ， 其 中 “在 搜索 结果 页 面 ， 导 航 快捷 键 [.. ] 被 显示 在 网 站 主页 的 下 面 ， 并 让 用 户 直接 
跳 转 到 网 站 内 的 选 定点 ”[347]。 自 动 确定 这 些 链接 是 不 简单 的 ， 因 为 其 目标 是 最 大 化 大 多 
数 用 户 的 利益 ， 即 在 有 限 的 区 域 显示 相关 的 链接 。 然 而 ， 领 先 的 搜索 引擎 似乎 做 得 很 好 ， 并 
且 可 能 会 继续 提高 ， 因 为 最 好 的 链接 通常 会 通过 点 击 和 工具 栏 数据 学 习 用 户 行 为 来 推断 
出 来 。 

(3) 更 多 的 结构 化 结果 

除了 主要 的 Web 语料库 提供 的 结果 外 ， 搜 索引 人 擎 还 包括 其 他 的 结果 类 型 。 

。 “直接 ”(onebox) 结果 。 这 是 对 应 于 可 能 有 唯一 结果 的 精确 查询 的 非常 具体 的 结果 。 

由 于 其 高 度 相关 性 ， 它 们 以 独特 的 格式 显示 在 常规 的 Web 结果 的 上 面 。onebox 结 
果 被 用 户 查询 中 指示 某 个 明确 意图 的 查询 项 所 触发 。 它 们 的 目的 或 者 是 直接 显示 出 
结果 ， 或 者 是 显示 出 结果 的 链接 ， 这 可 以 提供 终极 的 搜索 体验 ， 但 是 只 有 在 非常 特 
殊 的 情况 下 才能 完成 ， 即 当 相 关 性 被 保证 、 且 答案 简短 而 不 含糊 的 时 候 。 

例如 ， 人 谷歌 和 雅虎 搜索 都 支持 天 气 的 onebox 查询 ， 通 过 输入 “天 气 (地 点 〉” 
来 触发 。( 见 图 11-13 中 的 例子 ) 。 搜 索引 人 擎 支持 的 onebox 搜索 的 一 些 例子 包括 :; 体 
育 直 接 搜 索 、 包 器 跟踪 (如 UPS 或 联邦 快递 )、 计 算 器 、 电 影 列 表 以 及 上 上 映 时 间 
(尝试 “Movies Palo Alto”) 和 火车 时 刻 表 等 。 一 个 更 加 耐人寻味 、 更 有 挑战 的 例子 
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是 “事实 提取 ”， 虽 然 它 不 按照 经 典 的 onebox 搜索 格式 显示 ， 但 它 也 可 以 提供 相似 
的 体验 。 例 如 ， 在 谷歌 上 查询 “ 谁 是 加 州 的 州长 ”， 第 一 个 结果 会 显示 “加 州 -州长 ; 
阿诺德 。 施 瓦 辛 格 ”。 另 一 种 类 似 于 onebox 的 结果 类 型 能 够 被 没有 唯一 结果 的 查询 
触发 ， 它 是 查询 的 一 种 模式 。 在 谷歌 上 查询 “从 纽约 到 伦敦 的 航班 ”， 会 显示 一 个 输 
入 框 ， 让 用 户 输入 确切 的 出 发 和 返回 日 期 ， 然 后 将 新 的 查询 转发 到 Kayak 和 Expe- 
dia 等 聚合 器 。 谷 歌 在 搜索 功能 页 面 列 出 它 目前 大 多 数 的 onebox 搜索 功能 ， 以 及 
“define:” 等 一 些 保留 符号 [654]。 直 接 搜 索 基 本 上 是 一 个 快速 解决 (quick hack), 
并 且 在 某 种 意义 上 是 常规 排序 列表 方法 无 法 满足 所 有 用 户 需求 的 证 据 。 
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图 11-13 谷歌 的 天 气 onebox 查询 ， 不 需要 点 击 就 能 得 到 完整 的 答案 


一 个 相关 的 概念 是 雅虎 快捷 搜索 ， 它 是 部 分 手动 干预 的 、 对 于 热门 查询 (尝试 
城市 或 名 人 ) 的 onebox， 位 于 固有 结果 的 顶部 。Marissa Mayer 在 谷歌 博客 [1102] 
中 讨论 了 一 个 更 优雅 的 解决 方案 :“ 统 一 搜索 ”"， 我 们 接 下 来 讨论 它 。 
统一 搜索 结果 : 除了 提供 核心 Web 搜索 外 ， 大 部 分 Web 搜索 引擎 还 提供 了 其 他 的 
功能 ， 如 图 像 、 视 频 、 产 品 和 地 图 ， 它 们 来 自 于 自己 的 垂直 搜索 。 虽 然 用 户 可 以 直 
接 进入 这 些 功能 对 特定 语料库 进行 搜索 ， 但 “统一 的 ”愿景 指 的 是 用 户 不 需要 指定 目 
标语 料 库 。 搜 索引 擎 应 该 猜测 他 们 的 意图 并 从 最 相关 的 恰当 数据 源 中 自动 返回 结果 。 
主要 的 技术 挑战 是 选择 这 些 来 源 ， 并 决定 从 每 个 源 中 显示 多 少 结 果 。 由 于 这 是 一 个 经 
典 的 联合 搜索 问题 ， 因 此 使 用 Fagin 和 Wimmers 提出 的 组 合 正 交 结果 技术 [543] 是 有 
帮助 的 。 如 今 ， 搜 索引 擎 不 公布 它们 的 方法 ， 所 以 对 于 统一 排序 是 否 使 用 原则 性 的 公 
A, 或 者 是 否 使 用 一 些 启发 式 的 方法 都 不 是 很 清楚 。 通 常情 况 下 ， 如 “小 甜 甜 布 兰 妮 ” 
(Britney Spears) 这 样 的 查询 会 返回 图 像 、 视 频 和 新 闻 ， 以 及 主要 的 Web 结果 。 


Web 搜索 结果 可 以 以 不 同 的 格式 出 现 ， 这 取决 于 它们 的 类 型 。 一 个 例子 是 Ask. com, 


它 直接 显示 了 来 自 于 雅虎 问答 (Yahoo! Answers) 或 维基 问答 (WikiAnswers) 等 问答 系 
统 的 答案 ， 而 不 显示 片段 。 更 普遍 地 ， 一 个 常见 的 趋势 是 对 于 来 自主 要 Web 语料库 或 者 其 
他 服务 等 特定 来 源 的 结果 ， 以 稍微 不 同 的 格式 显示 。Searchmonkey 说 明了 这 一 点 ， 它 是 雅 
虎 搜索 的 一 个 开放 平台 ， 人 允许 发 布 者 “和 雅虎 搜索 共享 结构 化 数据 ， 以 便 显 示 一 个 标准 的 增 
强 的 结果 ” [1735]j。SearchMonkey 在 2007 年 被 推出 ， 它 部 分 受到 了 Peter Mika 关于 微 格 
式 (microformats) 的 早期 研究 的 启发 。 例 如 ， 雅 虎 搜索 上 的 所 有 维基 百科 结构 以 Search- 
Monkey 格式 显示 。 人 谷歌 最 近 跟 随 了 雅虎 的 范式 ， 在 2009 年 推出 富 搜 索 片 段 时 ， 也 探索 了 
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富 结果 格式 [629]。 最 后 ， 必 应 投入 了 很 多 的 精力 在 结构 化 结果 上 ， 提 供 了 特定 领域 的 “ 文 
摘 型 ”结果 。 下 面 列 出 了 一 些 必 应 的 例子 。 
。 旅行 搜索 结果 带 有 票 价 趋势 功能 。 
。 购物 搜索 结果 包括 一 些 便利 的 快捷 方式 ， 指 向 用 户 评价 、 专 家 评价 、 产 品 细节 和 价 
格 比 较 、 结 果 中 最 好 价格 、 等 级 、 易 用 性 、 可 承受 性 、 视 党 线索 和 独特 的 “ 必 应 现 
金 返 还 ”。 
。 健康 搜索 结果 指示 权威 来 源 ， 如 作为 内 容 供 应 者 的 Mayo 医学 中 心 。 
。 对 于 “总 体 ”、“ 大 气 ” 等 主题 ， 本 地 搜索 结果 包括 带 有 视觉 信息 的 基于 评价 的 分 
数 卡 。 
很 有 趣 的 是 ， 我 们 可 以 观察 在 保留 相同 类 型 的 丰富 功能 的 前 提 下 ， 必 应 搜索 是 否 容易 地 
泛 化、 扩展 到 其 他 垂直 领域 及 其 他 国家 。 

2. SERP 上 的 查询 帮助 

一 旦 用 户 提 出 查询 ， 并 查看 搜索 结果 页 面 ， 他 们 的 信息 、 导 航 以 及 事务 型 需求 [268] 
( 见 7. 2. 3 节 的 更 多 细节 ) 可 以 被 : 
。 满足 。 这 可 能 立即 发 生 ， 比 如 当 用 户 从 计算 器 、 天 气 、 体 育 比 赛 结果 等 onebox 搜索 
结果 直接 得 到 答案 ; 或 者 几乎 在 它们 点 击 排 在 前 列 的 一 个 或 者 多 个 结果 后 立即 发 生 。 
。 部 分 满足 。 这 通常 发 生 在 用 户 进行 “研究 型 任务 ”[218]j， 但 没有 一 个 单一 网 页 拥有 
所 有 需要 的 信息 时 。11. 7. 2 节 描 述 的 搜索 记事 本 等 搜索 工具 ， 被 很 好 地 设计 用 来 收 
集 、 注 释 和 整理 这 些 部 分 答案 ， 以 便 形 成 一 个 连贯 的 单元 ， 然 后 存储 起 来 供 日 后 使 
用 ， 或 出 版 /分 享 给 别人 。 有 些 需 求 更 容易 触发 研究 型 任务 。 这 些 例子 包括 用 户 寻找 
酒店 、 饭 店 的 旅行 需求 ， 以 及 娱乐 设施 、 功 课 、 学 生 写 作业 的 教育 需求 ， 或 者 有 关 
疾病 、 症 状 和 治疗 方案 的 患者 健康 信息 。 
。 完全 不 满足 。 这 可 能 是 因为 用 户 没有 很 好 地 制定 他 们 的 查询 ， 或 者 由 于 相关 性 内 容 
不 存在 。 对 于 搜索 引擎 来 说 ， 仍 然 不 可 能 判断 什么 时 候 索 引 中 不 存在 相关 性 内 容 ， 
默认 情况 下 ， 大 多 数 搜索 引擎 会 假设 第 一 种 场景 ， 通 过 查询 助手 帮助 用 户 重新 制定 
他 们 的 查询 。 
本 节 深 入 探讨 了 如 何 使 用 查询 助手 工具 帮助 用 户 精 化 或 重 构 制定 查询 ， 如 第 2 章 所 讨论 的 。 
(1) 拼写 帮助 
查询 帮助 最 成 功 的 例子 是 谷歌 现在 提供 的 著名 的 “您 是 不 是 要 找 ”(Did you mean), È 
不 同 于 通常 的 基于 字典 的 模型 ， 它 彻底 改变 了 拼写 校对 。 事 实 上 ， 经 典 的 方法 是 使 用 编辑 距 
离 来 识别 字母 倒置 等 打字 错误 [944] ( 见 6.5. 3 节 )。 而 “您 是 不 是 要 找 ” 则 简单 地 从 大 量 
使 用 中 学 习 拼 写 校对 。 它 广泛 应 用 查询 日 志 分 析 来 进行 拼写 校对 [637]。 谷 歌 发 言 人 在 校园 
演讲 中 给 出 的 一 个 常见 的 例子 是 “Britney Spears”， 查 询 日 志 显 示 她 的 名 字 有 数 百 种 错误 的 
拼写 方式 (用 户 很 有 创造 力 )， 但 是 迄今 为 止 最 频繁 的 拼写 是 正确 的 那个 。 也 就 是 说 ， 群 体 
智慧 是 最 好 的 ( 见 11. 10. 2 节 )。 这 种 纯粹 的 频 度 信号 对 于 长 尾 查 询 或 者 在 日 志 不 是 很 大 的 
领域 是 不 那么 有 效 的 ， 受 到 了 前 面 提 到 的 “小 语料库 挑战 ”的 影响 。 在 这 种 情况 下 ， 可 以 使 
用 需要 较 少 证 据 的 其 他 信号 。 例 如 ， 前 谷歌 首席 信息 官 Douglas Merrill 在 他 的 “101 个 
Google 搜索 技巧 ”中 [1121]j， 解 释 了 搜索 引擎 可 以 通过 简单 地 观察 用 户 在 两 个 连续 查询 中 
重 写 的 查询 来 学 习 查 询 的 正确 拼写 。Cucerzan 和 Brill Æ [461] 中 研究 了 这 个 方法 ， 展 示 了 
如 何 从 查询 日 志 中 的 查询 重 写 来 学 习 查 询 校 正 模型 。 

(2) 查询 建议 

SERP 上 查询 帮助 的 其 他 手段 还 有 查询 建议 。SERP 查询 建议 不 同 于 搜索 框 中 提供 的 动 
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态 查询 建议 ， 因 为 它们 能 够 利用 更 丰富 的 信息 ， 包 括 良 构 的 完整 查询 (而 不 是 部 分 的 ) 以 及 
丰富 的 结果 集合 ， 带 有 各 自 的 片段 和 相关 的 信息 。 查 询 建议 通常 在 某 种 意义 上 与 原始 查询 相 
关 ， 当 用 户 不 知道 如 何 表 达 他 们 的 需求 时 最 有 用 ， 他 们 转向 相关 的 、 并 且 可 望 制定 得 更 好 、 
结果 也 更 好 的 查询 。 

已 经 有 了 一 些 关于 挖 握 查 询 日 志 来 生成 查询 建议 的 研究 工作 。 它 们 大 致 可 以 分 为 三 类 。 

。 ABBA (content-aware】 方 法 依 束 于 搜索 结果 或 者 日 标 页 面 。 这 类 工作 早期 的 例 

TÆ Raghavan 和 Sever [1329] 所 做 的 ， 他 们 试图 通过 结果 集 文档 的 不 同 顺 序 来 衡 
量 查询 相似 度 。 昌 然 这 个 方法 的 优点 是 文档 集 能 提供 更 丰富 的 信息 ， 但 它 也 带 来 了 
可 扩展 性 方面 的 挑战 。 类 似 地 ，Fitzpatrick 和 Dent [567] 用 前 200 个 结果 的 归 一 
化 交集 来 衡量 查询 相似 度 。 他 们 的 技术 同样 受到 可 扩展 性 的 影响 ， 因 为 使 用 不 同 同 
义 词 的 语义 相似 查询 的 交集 通常 是 很 小 的 。Sahami 在 [1406] 中 使 用 了 基于 结果 片 
段 的 查询 相似 度 。 他 们 把 每 一 个 片段 作为 查询 提交 给 搜索 引擎 ， 和 希望 找到 包含 原始 
片段 中 查询 项 的 文档 。 然 后 ， 他 们 使 用 这 些 返回 的 文档， 为 原始 片段 创建 一 个 上 下 
文 向 量 。 

。 内 容 无 关 (content ignorant) 的 方法 由 Befferman 和 Berger [166] 很 好 地 描述 ， 他 
们 从 被 经 常 点 击 的 URL 推断 出 查询 间 的 相似 度 。 和 遗憾 地 ， 这 个 方法 的 影响 力 在 某 
种 程度 上 是 有 限 的 ， 因 为 结果 页 面 中 的 点 击 数 是 相对 较 小 的 [891， 因 此 相关 的 查询 
间 上 距离 矩阵 是 很 稀 朴 的 。 通 过 使 用 大 量 的 查询 日 志 〈 如 果 这 是 合法 的 话 )， 可 能 会 使 
这 种 稀疏 降低 。 

。 查询 流 方 法 考虑 到 用 户 的 序列 搜索 行为 ， 以 便 更 好 地 理解 查询 的 意图 。Fonseca 等 
人 [571] 和 Zhang 等 人 [1777] 是 这 种 方法 比较 好 的 例子 。Fonseca 等 人 将 查询 日 
志 看 成 事务 的 集合 ， 其 中 每 个 事务 代表 一 个 会 话 ， 即 单个 用 户 在 一 个 给 定时 间 区 间 
内 提交 的 一 个 相关 查询 序列 。 这 个 方法 有 较 好 的 结果 ， 但 也 产生 了 两 个 问题 。 首 先 ， 
它 很 难 确定 由 属于 相同 搜索 过 程 的 连续 查询 组 成 的 会 话 ， 其 次 ， 无 法 发 现 由 不 同 用 
户 提 交 的 、 最 有 趣 的 相关 查询 。 

大 多 数 现 代 的 解决 方案 使 用 混合 方法 以 获得 更 高 的 精度 。 例 如 ，Baeza-Yates 等 人 
[109，!LL0，111] 使 用 被 点 击 的 网 页 的 内 容 为 每 个 查询 定义 一 个 查询 项 权重 向 量 模型 。 他 们 
考虑 在 查询 后 点 击 的 URL 中 的 项 。 每 一 项 通过 查询 的 出 现 次数 和 出 现 查询 项 的 文档 被 点 击 
的 个 数 来 给 定 权 重 。 一 个 看 上 去 相当 有 希望 的 研究 方法 是 从 查询 流 中 控 据 关系 。 

例如 ， 会 话 通常 是 物理 会 话 ， 而 不 是 逻辑 会 话 。 所 以 ,在 很 短 时 间 内 的 四 个 连续 查询 可 
能 是 与 两 个 完全 不 同 的 任务 相关 。 通 过 最 近 在 制定 查询 流 图 的 尝试 [218]， 我 们 期 望 看 到 更 
多 的 、 能 够 得 到 更 好 结果 的 先进 挖 据 技术 。 

Web 搜索 引擎 不 交流 它们 青睐 的 方法 ， 但 我 们 可 以 认为 ， 它 们 使 用 了 “最 佳 ” 的 那个 
方法 ， 并 利用 了 多 种 信号 。 值 得 注意 的 是 ， 对 于 在 SERP 上 放置 这 些 建议 的 位 置 上 并 没有 达 
成 一 致意 见 。 这 是 一 个 有 趣 的 现象 ， 因 为 位 置 对 于 使 用 有 着 直接 的 影响 ， 并 可 能 是 衡量 一 个 
搜索 引擎 信任 其 建议 工具 的 指示 器 。 

谷歌 在 SERP 底部 的 “相关 搜索 :”(Search related to:) 标签 下 面 显示 查询 建议 
(图 11-12 底 部 的 矩形 ) 并 以 4 列 2 行 的 形式 安排 它们 。 因 此 ， 可 以 预计 这 个 功能 的 点 击 率 是 
相对 比较 小 的 。 有 趣 的 是 ， 谷 歌 “ 百 宝箱 ” (tool belt) 最 新 推出 的 “搜索 选项 ” (Search 
options) 功能 提供 了 对 于 “相关 搜索 ”， 以 及 对 原创 〈 还 没有 广泛 应 用 ， 可 能 是 由 于 它 精 度 
比较 低 ) 的 “神奇 罗盘 ” (wonder wheel) 的 访问 ， 给 出 了 一 个 相关 搜索 项 的 图 形 化 表示 。 
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通过 点 击 罗 盘 上 的 任何 结 点 ， 用 户 在 交互 的 动画 罗盘 上 获得 相关 的 主题 ， 而 结果 在 右 侧 保持 
更 新 。 

雅虎 搜索 也 在 多 个 位 置 显示 相关 结果 ， 如 搜索 框 的 右 下 方 ， 在 标签 “您 是 不 是 要 找 ” 
(Also try) FE (AR 11-12 顶部 的 第 二 个 矩形 )， 在 左 侧 的 导航 窗 格 中 ， 甚 至 在 搜索 矩形 
内 与 常规 的 动态 查询 建议 并 排 地 显示 。 后 者 和 常规 的 查询 建议 在 不 同 的 区 域内 ， 仅 当 用 户 继 
续 输 入 查询 或 者 自愿 地 扩展 它 时 ， 才 出 现在 SERP 的 搜索 矩形 内 。 最 后 ， 必 应 搜索 在 导航 窗 
格 的 西部 区 域 显示 它们 ， 并 将 它们 标记 成 “相关 搜索 ”(related searches), 

(3) 通过 分 面 的 查询 精 化 

根据 分 面 搜 索 范式 ， 查 询 也 可 以 通过 将 结果 限定 在 一 定 的 “分 面 ” 上 来 进行 精 化 。 分 面 
搜索 是 一 个 导航 机 制 ,“ 通 过 文本 搜索 并 逐步 缩小 在 每 个 维度 的 选择 ， 以 使 用 户 能 够 导航 到 
一 个 多 维 信息 空间 ”L279]。 我 们 在 这 里 将 分 面 导航 考虑 成 一 个 查询 精 化 机 制 ， 因 为 在 实际 
中 它 需 要 通过 用 户 来 选择 分 面 。 这 个 用 户 提供 的 输入 使 查询 增加 了 额外 的 信息 ， 从 而 能 够 更 
好 地 指定 用 户 的 需求 ， 缩 小 了 结果 集 。 在 第 2 章 中 ， 我 们 详细 地 回顾 了 分 面 导 航 ， 说 明了 分 
面 导 航 在 搜索 系统 中 的 应 用 ， 如 Flamenco、 芝 加 哥 大 学 的 Aquabrower 和 Yelp. com 等 垂直 
搜索 服务 。 

在 Web 搜索 中 ， 分 面 导 航 只 是 刚刚 出 现 ， 由 于 规模 的 原因 ， 有 很 多 技术 性 挑战 。 在 
Web 背景 中 实现 分 面 导 航 的 一 种 方法 是 ， 将 结果 的 属性 ， 如 它们 的 类 型 视频、 音频 ) 或 
者 它们 的 来 源 (维基 百 科 、YouTube、 雅 虎 问答 ) 映射 到 导航 分 面 。 这 个 方法 被 雅虎 搜索 采 
用 ， 如 图 11-14 所 示 ， 西 部 的 导航 窗 格 显示 了 一 些 用 来 缩小 查询 “巴塞罗那 ” (Barcelona) 
的 相关 来 源 。 必 应 搜索 也 使 用 类 似 的 方法 ， 如 图 11-15 所 示 。 虽 然 这 种 机 制 的 实现 细节 还 没 
有 公开 ， 但 人 们 能 够 设想 的 一 种 简单 的 实现 方法 是 ， 索 引 存 储 这 些 静 态 的 属性 ， 而 搜索 引擎 
在 运行 时 获取 与 处 理 它们 。 
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图 11-14 雅虎 搜索 中 来 源 驱 动 的 高 层 分 面 


谷歌 通过 之 前 提 到 的 百宝箱 ， 提 供 了 相似 的 功能 。 用 户 可 以 通过 各 种 类 型 的 分 面 将 结果 
“切片 和 切 块 ?>， 分 面 从 类 型 /来 源 ， 如 “视频 、 论 坛 、 评 论 ” (Video, Forums, Reviews) 
分 面 ， 到 基于 时 间 的 分 面 ， 如 “过 去 的 24 小 时 ” (Past 24 hours)，“ 过 去 的 一 周 ” (Past 
week) 和 “过 去 的 一 年 ”(Past year). 

一 个 更 复杂 的 情况 包括 显示 每 一 个 分 面 的 结果 数量 。 还 没有 搜索 引擎 提供 这 种 功能 。 虽 
然 它 在 过 去 已 经 被 如 Endeca [534] 等 企业 分 面 搜索 引擎 以 及 很 多 购物 网 站 提供 ， 但 在 Web 
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[495] 的 规模 下 ， 在 一 个 适当 的 响应 时 间 内 估计 这 些 数量 是 很 困难 的 任务 。 
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图 11-15 必 应 搜索 左 侧 的 分 面 导航 


分 面 搜索 研究 已 经 调查 了 甚至 更 复杂 的 情况 ， 如 层次 式 的 、 关 联 的 ， 甚 至 在 运行 时 需要 
动态 计算 的 分 面 [1751]， 以 及 与 它们 关联 的 可 视 化 界面 [739]。 然 而 ， 因 为 它们 还 没有 被 
任何 主流 搜索 引擎 部 署 ， 所 以 在 这 里 我 们 不 讨论 它们 。 跟 随 这 个 领域 的 进展 是 很 有 趣 的 ， 因 
为 如 上 所 述 ， 主 要 的 Web 搜索 引擎 都 在 以 各 自 的 方式 探索 这 个 话题 。 

3. 可 执行 的 结果 

这 里 我 们 讨论 的 最 后 一 个 SERP 话题 涉及 许多 有 前 途 的 工具 ， 比 起 简单 的 解释 或 者 导 
航 ， 它 们 人 允许 对 搜索 结果 进行 更 多 的 操作 。 这 个 列表 无 法 面面俱到 ， 因 为 这 个 领域 很 丰富 ， 
而 且 还 在 不 断 地 发 展 。 我 们 料想 更 多 的 工具 很 快 出 现 ， 而 且 也 有 很 多 工具 会 消失 ， 如 2009 
年 年 初 被 谷歌 停止 的 记事 本 扩展 (notebook extension) [653], 

有 些 功 能 简单 地 对 结果 本 身 进 行 操作 ， 用 于 各 种 目的 ， 如 雅虎 搜索 ， 或 者 谷歌 “网 页 快 
FR” (Cached) 链接 和 谷歌 “类 似 结果 ” (Similar) 链接 。 一 个 更 高 级 的 功能 是 谷歌 “翻译 此 
i” (Translate this page) ， 它 显示 在 结果 标题 的 旁边 ， 将 目标 页 面 翻 译 成 用 户 默认 的 语言 。 

另 一 种 工具 现在 已 成 为 Web 搜索 引擎 的 一 部 分 ， 它 是 内 置 搜索 框 ， 通 常 显示 在 站 内 链 
接 或 快速 链接 的 下 面 ， 这 些 链接 允许 用 户 在 答案 所 在 的 网 站 内 进行 搜索 。 例 如 ， 在 谷歌 页 面 
上 对 《New York Times) (HAM) 的 搜索 会 产生 一 个 指向 该 报纸 主页 的 链接 ， 以 及 这 样 
一 个 关联 的 站 内 搜索 框 。 在 框 中 输入 的 查询 会 以 一 个 “site: nytimes.com” 限定 符 来 补充 
查询 ( 见 表 11-3 中 “site:” 的 操作 符 )， 它 将 结果 限制 为 只 是 这 个 网 站 内 。 

更 有 趣 的 工具 包括 谷歌 搜索 之 星 (Stars in Search) 和 雅虎 搜索 记事 本 (Search Pad), 
“Stars in Search” 功 能 在 2010 年 3 月 推出 ， 替 代 了 更 复杂 但 是 可 能 不 太 成 功 的 搜索 维基 
(Searchwiki)， 搜 索 维 基 人 允许 用 户 对 于 任何 结果 通过 结果 旁边 的 3 个 小 图 标 提供 反馈 : 气泡 
用 于 “评论 ”， 箭 头 用 于 “推广 ”*:,“X” 用 于 “删除 ”。 利 用 这 个 现在 已 经 停止 的 功能 ， 用 户 
可 以 按 他 们 的 意愿 注释 、 推 广 和 去 掉 结 果 。 如 果 用 户 在 未 来 重新 提出 相同 的 查询 ， 他 们 会 看 
到 结果 的 个 性 化 得 到 了 人 保留。 此外， 用户 可 以 通过 点 击 SERP 底部 的 链接 ， 以 便 在 任何 时 间 
访问 他 们 自己 的 搜索 维基 笔记 。 搜 索 维基 最 近 被 精简 版 本 搜索 之 星 取 代 ， 它 保留 着 搜索 维基 
“推广 ”功能 的 一 个 变种 。 也 就 是 说 ， 三 个 小 图 标 被 一 个 单一 的 星星 取代 了 ， 当 用 户 选 择 了 它 ， 
它 就 变 成 黄色 ， 作 为 喜欢 结果 的 一 种 标记 。 因 此 ， 对 于 后 续 的 相似 搜索 ， 用 户 将 看 到 之 前 加 了 
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星 标的 答案 出 现在 结果 列表 顶部 的 特殊 区 域 中 。 这 里 需要 记 住 的 一 个 有 趣 的 教训 是 ， 所 有 搜索 
引擎 需要 仔细 监控 使 用 情况 ， 并 修改 或 者 完全 去 除 那些 没有 得 到 足够 吸引 力 的 功能 。 

雅虎 搜索 记事 本 是 一 个 有 趣 的 功能 ， 因 为 它 和 之 前 提 到 的 谷歌 记事 本 属于 同一 类 ， 只 是 
使 用 了 不 同 的 方法 。 搜 索 记事 本 允许 用 户 轻 松 地 跟踪 他 们 咨询 过 的 结果 ， 并 对 它们 整理 和 注 
释 ， 以 便 后 续 使 用 或 与 别人 分 享 。 这 种 概念 不 是 新 的 ， 它 首先 由 Bharat [196] 提出 。 但 是 
使 它 变 得 独特 、 并 可 能 比 其 他 相关 工具 更 有 用 的 原因 是 ， 只 有 当 搜 索引 擎 确定 用 户 是 调查 一 
个 主题 ， 而 不 是 寻找 快速 的 “一 次 性 ”的 结果 时 ， 才 会 触发 搜索 记事 本 工具 。 所 访问 的 页 面 
能 够 被 自动 增加 到 适合 的 搜索 记事 本 工具 ， 而 不 需要 用 户 像 早期 研究 工作 那样 特别 地 “ 标 
记 ” 它 们 ， 例 如 Ask 的 “My Stuff”[L75]， 以 及 已 经 不 再 维护 的 谷歌 记事 本 [939]. 


11.7.3 培养 用 户 


我 们 已 经 讨论 过 界面 如 何 通过 越 来 越 丰富 的 片段 以 及 结果 切片 逐渐 进步 ， 从 而 能 协助 用 
户 进行 查询 描述 和 结果 解释 。 然 而 ， 我 们 应 该 期 望 用 户 ， 尤 其 是 年 轻 的 一 代 ， 变 得 越 来 越 有 
因特网 意识 ， 并 能 够 对 搜索 引擎 过 程 进 行 更 多 的 控制 。 

按照 指南 ， 高 级 搜索 界面 向 用 户 提供 更 好 的 控制 查询 效果 的 形式 。 通 过 在 查询 内 部 使 用 高 级 
操作 符 ， 可 以 得 到 几乎 相同 的 效果 。 为 了 更 多 地 控制 ， 高 级 用 户 可 以 指定 尽 可 能 多 的 查询 项 ， 并 
指示 哪些 查询 项 应 该 包括 在 结果 中 (通过 “十 ”操作 符 ) 而 哪些 不 应 该 (通过 “一 ”操作 符 )。 
然而 ， 用 户 不 应 该 增加 一 个 词 所 有 可 能 的 同义词 ， 因 为 很 少 有 网 页 对 于 一 个 给 定 的 概念 会 使 用 多 
于 一 个 或 者 两 个 同义词 。 如 果 用 户 能 够 把 搜索 限制 在 一 个 区 域 〈 例 如 ， 页 面 标题 )， 限 制 某 些 属 
性 (日 期 、 国 家 ) 或 者 用 表 11-3 中 提 到 的 操作 符 ， 那 么 结果 集 的 大 小 必然 会 减 小 。 

即使 我 们 能 给 出 好 的 查询 ， 但 结果 集 仍 然 可 能 非常 大 。 考 虑 到 前 面 提 到 的 可 视 化 工具 对 
一 般 大 众 还 是 不 可 用 的 ， 并 且 它 们 是 否 会 被 一 直 采 用 还 不 是 很 清楚 ， 所 以 用 户 必须 从 经 验 中 
学 习 。 有 很 多 策略 来 快速 地 发 现 相关 的 答案 。 如 果 用 户 正在 寻找 一 个 机 构 ， 他 们 总 是 能 够 尝 
试 猜测 相关 的 URL， 首 先 通过 www 前 级 ， 后 面 跟随 一 个 所 猜测 的 机 构 的 首 字母 缩写 词 或 简 
称 ， 最 后 跟 一 个 顶级 域名 (国家 代码 ， 或 者 对 美国 来 说 的 gov、com、edu、org) 。 如 果 这 还 
不 能 正常 工作 ， 那么 用 户 可 以 在 Web 目录 中 搜索 该 机 构 的 名 称 。 

另 一 种 有 些 常 见 的 工作 是 用 户 在 一 个 特定 的 主题 上 搜索 出 版 的 作品 。 为 了 完成 这 一 任 
务 ， 一 个 可 能 的 策略 是 : 

D 选择 与 主题 相关 的 文章 ， 如 果 可 能 的 话 ， 选 择 不 常见 的 作者 姓氏 或 者 标题 关键 词 。 

2) 使 用 搜索 引擎 来 找到 所 有 包含 那些 姓氏 和 关键 词 的 网 页 。 很 多 结果 很 可 能 是 相关 的 ， 
因为 它们 指向 如 下 内 容 : a) 引用 那 份 原始 文献 的 较 新 的 论文 ;b) 作者 的 个 人 网 页 ; c) 关 
于 这 个 主题 的 页 面 ， 它 指向 很 多 相关 的 参考 文献 。 通 过 在 搜索 过 程 中 将 最 初 的 文章 修改 成 更 
好 的 参考 文献 ， 这 个 策略 能 够 进行 迭代 运行 。 

Web 提出 了 太 多 具有 挑战 性 的 问题 ， 以 至 于 有 时 更 有 效 的 方式 是 培养 用 户 如 何 恰当 地 
从 搜索 引擎 和 Web 目录 中 获 益 ， 而 不 是 试图 猜测 用 户 真 正 要 什么 。 鉴 于 搜索 引擎 对 Web 的 
覆盖 率 有 所 不 同 ， 有 一 个 方法 是 使 用 多 个 引擎 或 者 元 搜索 引擎 。 这 里 的 关键 教训 是 : 1) 伴 
随 着 “ 针 ”， 搜 索引 擎 仍然 返回 太 多 的 “干草 ”; 2) Web 目录 没有 足够 的 深度 来 找到 这 些 
“ 针 ”。 因 此 ， 当 查询 时 ， 我 们 建议 使 用 如 下 的 经 验 规则 尝试 ， 

。 专门 的 查询 : 查看 百科 全 书 ， 这 是 它们 存在 的 原因 ， 不 要 忘记 图 书馆 。 

。 广泛 的 查询 : 使 用 Web 目录 来 找到 好 的 起 点 。 

。 模糊 的 或 者 探索 性 的 查询 ， 以 及 反复 的 精 化 : 使 用 Web 搜索 引擎 ， 基 于 相关 答案 来 
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改进 查询 。 
11.8 浏览 


本 节 介 绍 另 外 一 种 发 现 范式 一 一 浏览 ， 特 别 关 注 于 Web 目录 。 在 大 部 分 情况 下 浏览 是 
有 用 的 ， 例 如 当 用 户 不 知道 如 何 指定 查询 〈 在 全 球 互联 网 的 环境 下 ， 这 变 得 越 来 越 罕 见 )， 
或 者 当 他 们 想 探 索 一 个 特定 的 集合 ， 但 不 确定 其 范围 时 。 如 今 ， 浏 览 不 再 是 Web 上 首选 的 
发 现 范式 。 尽 管 如 此 ， 在 特定 的 环境 下 它 仍 然 是 有 用 的 ， 如 在 企业 网 或 垂直 领域 。 

在 浏览 的 情况 下 ， 用 户 愿意 投入 一 些 时 间 来 探索 文档 空间 ， 和 寻找 感 兴趣 的 ， 其 至 出 平 意 
料 的 参考 资料 。 无 论 是 浏览 还 是 搜索 ， 用 户 的 目标 都 是 发 现 信息 。 然 而 ， 在 搜索 中 ， 用 户 的 
目标 更 清晰 。 相 反 ， 在 浏览 的 时 候 ， 用 户 的 需求 通常 更 广泛 。 虽 然 这 种 区 别 不 是 在 所 有 情况 
下 都 存在 ， 但 为 了 简单 起 见 ， 我 们 在 这 里 采用 了 它 。 我 们 首先 描述 了 3 种 浏览 类 型 ， 即 扁平 
《flat) 、 结 构 驱 动 〈 特 别 关注 Web 目录 ) 和 超 文 本 驱动 。 然 后 ， 我 们 尝试 将 搜索 和 浏览 相 混 
合 的 方式 。 


11.8.1 扁平 浏览 


在 扁平 浏览 中 ， 用 户 探索 一 个 以 扁平 形式 组 织 的 文档 空间 。 例 如 ， 文 档 可 能 由 二 维 平面 的 点 
来 代表 ， 或 者 由 一 维 列表 中 的 元 素来 代表 ， 这 些 元 素 通过 字母 或 其 他 顺序 排列 。 然 后 用 户 将 在 各 
处 扫 视 ， 在 所 访问 的 文档 中 寻找 信息 。 值 得 注意 的 是 ， 对 搜索 结果 的 探索 也 是 一 种 扁平 浏览 的 形 
式 。 每 篇 文档 也 可 以 通过 在 浏览 器 中 使 用 导航 箭头 和 滚动 条 ， 以 扁平 的 方式 进行 探索 。 

缺点 是 在 给 定 的 页 面 或 者 屏幕 中 ， 对 于 用 户 正在 浏览 的 文档 ， 可 能 没有 明确 的 上 下 文 指 
示 。 例 如 ， 当 浏览 天 型 文档 时 ， 用 户 可 能 忘记 了 他 们 正在 看 文档 的 哪个 部 分 。 由 于 其 规模 和 
分 布 ， 扁 平 浏览 在 全 球 互联 网 显然 是 不 可 用 的 。 但 是 当 浏 览 较 小 的 集合 时 ， 它 仍然 是 一 个 可 
选择 的 机 制 。 此 外 ， 它 可 以 用 来 结合 搜索 来 探索 结果 或 者 属性 。 

实际 上 ， 扁 平 浏览 一 般 在 初始 搜索 后 进行 ， 并 允许 确定 新 的 感 兴趣 的 关键 词 。 这 些 关 键 
词 可 以 被 添加 到 初始 查询 中 ， 以 尝试 提供 更 好 的 庄 境 。 这 个 过 程 是 第 5 章 所 详细 讨论 的 相关 
反馈 的 一 种 变种 形式 。 


11.8.2 结构 导向 的 浏览 和 Web 目录 


一 个 更 加 可 扩展 的 浏览 模型 是 结构 驱动 模型 ， 其 中 层次 结构 或 树 结 构 等 潜在 的 结构 被 用 
于 浏览 这 个 空间 。 这 个 模型 在 Web 的 早期 是 很 流行 的 ， 当 时 搜索 引擎 的 效果 不 好 。 目 前 它 
仍然 应 用 于 全 球 Web， 如 雅虎 目录 [1737] 或 者 开放 目录 计划 (Open Directory Project, 
ODP， 也 被 称 为 DMOZ) [1220]j。 目 录 是 将 属于 关联 主题 的 文档 组 合 起 来 的 类 别 层 次 结构 。 
有 些 目录 针对 特定 的 垂直 领域 。 例 如 ， 有 些 网 站 专注 于 商业 ， 有 些 网 站 专注 于 研究 文献 A 
如 CiteSeerX[387]) 。 根 据 其 应 用 领域 ，Web 目录 (Web directory) 可 能 也 称 为 目录 (cate- 
log) 、 黄 页 或 者 主题 目录 。 

K 11-4 展示 了 一 些 Web 目录 使 用 的 第 一 级 目录 ， 其 中 第 一 级 类 别 的 个 数 在 12 一 26 。 有 
些 子 目录 在 Web 目录 的 主页 上 也 是 可 用 的 ， 这 样 就 增加 了 70 多 个 主题 。 最 大 的 目录 ， 如 之 
前 提 到 的 ODP 和 雅虎 目录 ， 履 盖 了 数 百 万 个 网 站 。 在 大 多 数 情况 下 ， 页 面 必 须 提交 到 Web 
目录 ， 然 后 它们 被 检查 并 分 到 层次 结构 的 一 个 或 多 个 类 别 中 。ODP 被 认为 是 第 一 个 
Web 2.0 目 录 ， 因 为 它 采 用 了 协同 对 等 模型 (collaborative peer model) 的 方法 ， 其 中 人 们 
自愿 担任 编辑 者 。 值 得 注意 的 是 ， 即 使 潜在 的 目录 结构 是 分 层次 的 ， 但 它们 并 没有 形成 真正 
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的 树 ， 因 为 交叉 引用 是 很 频繁 的 。 因 此 ， 在 实践 中 目录 是 有 向 无 环 图 。 
Web 目录 还 允许 用 户 在 分 类 描述 或 者 分 表 11-4 Web 目录 中 第 一 级 类 别 的 例子 
类 指向 的 网 页 上 进行 搜索 。 事 实 上， 因为 分 类 FRAKES ”商业 与 经 济 计算 机 与 互联 网 ~ 
育 游戏 


网 页 的 数量 非常 少 ， 所 以 考虑 到 效率 因素 ， 目 AN a 
录 甚 至 可 以 为 所 有 网 页 保持 一 个 本 地 的 副本 。 ”投资 儿童 和 家 庭 RIAM 
代价 就 是 目录 必须 确保 时 效 性 。 Seu ae on 
目录 浏览 的 主要 优点 是 它 提供 的 信息 通常 KR 科技 购物 及 服务 
是 有 价值 的 。 但 另 一 方面 ， 它 也 有 两 个 缺点 ， Pak Mr Miret 


第 一 个 是 分 类 总 是 不 够 专业 ， 问 题 很 多 ， 并 有 旦 目录 提供 的 Web 覆盖 度 是 很 低 的 〈 覆 盖 了 所 
有 网 页 的 不 到 1%)。 因 此 ， 在 Web 规模 ， 精 度 通 常 是 可 以 实现 的 ,但 是 召回 率 却 不 能 保 
证 。 大 多 数 Web 目录 意识 到 这 个 召回 率 问题 ， 也 发 送 查 询 给 全 球 搜索 引擎 (通过 一 个 战略 
联盟 ) 来 补充 它们 的 结果 。 

目录 的 另 一 个 问题 是 内 容 的 增长 ， 由 于 Web 的 不 断 扩 大 ， 这 个 问题 每 天 都 变 得 更 严重 。 
通过 聚 类 或 者 其 他 技术 ， 自 动 生成 目录 的 努力 在 十 多 年 前 就 开始 了 。 然 而 ， 这 种 努力 是 很 昂 
贵 的 ， 由 于 现 有 自然 语言 处 理 技术 的 限制 (还 远 远 没有 办 法 有 效 地 抽取 关键 概念 )， 没 办 法 
对 于 所 有 情况 都 真正 地 成 功 。 因 此 ， 大 部 分 分 类 仍然 是 通过 有 限 数量 的 编辑 手动 完成 ， 这 减 
慢 了 目录 的 增长 。 手 动 分 类 还 有 另 一 种 限制 ， 即 缺乏 术语 一 致 性 ， 这 不 仅 发 生 在 用 户 和 编辑 
之 间 ， 也 发 生 在 编辑 之 间 。 

相同 的 结构 导向 模型 能 够 应 用 在 单个 文档 上 。 例 如 ， 当 浏览 电子 书 时 ， 内 容 的 第 一 级 是 
章 ， 第 二 级 是 节 ， 最 后 一 级 是 文本 本 身 (扁平 );。 一 个 好 的 用 户 界面 可 以 以 聚焦 的 方式 在 层 
次 结构 中 上 行 或 者 下 行 ， 帮 助 用 户 追 踪 文 档 上 下 文 。 

浏览 树 型 结构 时 的 一 个 常见 的 问题 是 当 用 户 在 深入 某 个 路 径 中 时 ， 可 能 会 丢失 上 下 文 。 
追寻 上 下 文 的 一 个 常见 方法 是 面包 悄 路 径 (breadcrumbs) 或 面包 悄 小 和 经 (breadcrumbs 
trail) [215，1244]， 它 出 现在 所 访问 页 面 的 顶部 ， 显 示 用 户 到 达 页 面 的 路 径 。 在 小 径 上 的 
每 个 位 置 通常 是 可 以 点 击 的 ， 人 允许 用 户 通过 一 次 点 击 回 到 之 前 的 位 置 。 在 图 11-16 底部 给 出 

一 个 面包 属 路 径 的 例子 ， 其 中 的 路 径 是 “目录 盖 娱乐 之 游戏 > 视频 游戏 ” (Directory> 

Recreation>Games> Video Games)， 它 代表 4 个 (可 以 点 击 的 ) 步骤 ,指引 到 当前 的 “ 聊 
天 和 论坛 ”(Chat and Forums) 页 面 。 


YAHOO, DIRECTORY 


| @orrectory | O Category Biz 
[Search } ht 86 Soares cent a 


Video Games > Chats and Forums 2s 
Beceation > Games > Video Games > SC Sad Pastore 


Te 





ere sree et 





图 11-16 雅虎 目录 中 面包 悄 路 径 的 例子 


一 个 相对 成 功 的 结构 驱动 模型 体现 在 网 站 地 图 上 ， 在 大 多 数 网 站 中 ， 它 或 者 显示 在 一 个 
专门 的 网 页 中 ,或 者 在 左 侧 导航 窗 格 中 。 网 站 地 图 (Sitemap) 早 在 20 世纪 90 年 代 末 期 就 
已 经 开始 研究 了 ， 关 于 Site Mapping 的 WWW 研讨 会 说 明了 这 点 [1068]， 但 是 十 年 后 才 出 
现 一 些 标 准 化 。 今 天 ， 大 多 数 关键 参与 者 都 认可 以 XML 形式 表达 的 网 站 地 图 协议 ， 如 
sitemap. org 所 公布 的 。 然 而 ， 这 些 地 图 大 多 数 用 来 帮助 网 站 管理 员 与 搜索 引擎 进行 交流 ， 
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并 告知 他 们 哪个 页 面 能 够 被 息 取 。 
除了 网 站 的 真实 结构 ， 浏 览 可 以 被 访问 历史 所 指导 。 事 实 上 ， 今 天 的 大 多 数 浏览 器 都 提 
供 历史 地 图 。 第 2 章 和 第 3 章 中 提供 了 浏览 大 型 结构 的 更 多 细节 。 


11.9 浏览 之 外 


11. 9. 1 超 文本 和 Web 


由 于 历史 的 原因 ， 许 多 人 仍然 认为 Web 是 一 个 巨大 的 分 布 式 超 文 本 。 这 是 一 个 误解 ， 
因为 Web 缺少 内 在 的 数据 模型 、 导 航 规划 和 设计 一 致 的 用 户 界面 。 数 百 万 的 网 页 设计 人 员 
独立 设计 带 有 自己 特色 的 界面 。 作 为 一 个 简单 的 例子 ， 当 在 一 个 给 定 的 网 站 上 寻找 电话 号 码 
时 ， 我 们 经 常 找 不 到 ， 因 为 它 被 埋葬 在 网 站 最 意 想不到 的 地 方 。 因 此 ， 没 有 任何 暗藏 的 力量 
帮助 Web 用 户 搜索 感 兴趣 的 信息 。 

因此 ， 我 们 更 倾向 于 将 Web 看 成 一 组 〈 部 分 ) 相互 关联 的 网 站 的 集合 。 其 中 的 一 些 网 
站 被 认为 是 本 地 的 超 文 本 〈 在 它们 内 在 结构 有 某 些 一 致 性 这 个 意义 上 )， 但 是 其 他 的 可 能 仅 
仅 是 一 些 单 独 设计 的 网 页 集合 〈 例 如 大 学 的 网 站 内 ， 各 个 院 系 设计 自己 的 网 页 )。 尽 管 缺 乏 
结构 和 建 模 ， 但 Web 在 交流 上 给 我 们 提供 了 一 个 新 的 层面 ， 因 为 它 可 以 在 一 个 非常 低 的 成 
本 下 对 全 世界 进行 访问 。 更 重要 的 是 ，Web 没有 控制 机 构 来 设立 监管 和 审查 制度 。 因 此 ， 
个 人 可 以 通过 大 型 媒体 发 布 其 著作 ， 而 不 用 经 过 编辑 委员 会 的 过 滤 ， 对 于 人 类 历史 来 说 这 是 
第 一 次 。 也 就 是 说 ，Web 是 电子 出 版 时 代 的 最 初 标 志 ， 如 第 1 章 讨论 的 。 


11.9.2 ”搜索 与 浏览 相 结合 


将 搜索 与 浏览 范式 组 合 的 混合 发 现 模型 也 已 经 开始 研究 ， 在 不 同 的 情况 下 有 了 或 多 或 少 
的 成 功 。 如 前 面 所 提 到 的 ， 大 多 数 Web 目录 重 定向 一 小 部 分 查询 到 搜索 引擎 ， 或 者 在 内 部 
人 允许 用 户 在 内 部 搜索 目录 中 的 一 个 特定 子 树 。 相 反 ， 现 在 的 搜索 引擎 将 小 的 链接 结构 关联 到 
某 些 结果 上 ， 如 11.7 节 所 提 到 的 片段 上 的 快速 链接 。 

如 果 Web 结构 ， 即 它 的 超 链接 ， 在 动态 搜索 方法 中 能 变 成 搜索 查询 的 一 部 分 (如 在 
Web 早期 的 一 些 查 询 语言 所 支持 的 》 或 者 搜索 过 程 的 关注 点 ， 那 么 搜索 和 浏览 可 以 以 一 种 
极为 不 同 的 方式 结合 。 这 些 超 链接 驱动 的 方法 在 研究 上 仍然 受到 限制 ， 没 有 得 到 广泛 的 应 
用 ， 主 要 由 于 多 种 局 限 性 ， 如 性 能 较 差 ， 可 扩展 性 较 差 MMMM RR. 

过 去 ,研究 人 员 尝 试 了 多 种 方法 来 结合 这 两 种 模式 。WebGlimpse[1077]」] 是 一 个 早期 的 
例子 ， 它 在 每 个 HTML 页 面 的 底部 附加 了 一 个 小 的 搜索 框 ， 从 而 使 搜索 过 程 覆 盖 相 邻 的 页 
面 或 整个 网 站 ， 但 仍然 保留 着 浏览 模式 。 这 相当 于 跟随 通过 邻 域 搜索 动态 建立 的 超 文本 链 
接 。 网 页 的 邻居 定义 成 在 最 大 预定 义 距离 内 通过 超 文 本 链接 路 径 可 达 的 网 页 集合 。 这 个 距离 
对 于 本 地 和 远程 网 页 可 能 会 设置 成 不 同 的 值 。 例 如 ， 对 于 本 地 的 网 页 会 很 大 ， 而 对 于 远程 网 
站 ,限制 在 一 个 距离 值 之 内 ， 如 3。 邻居 也 包 插 网 页 所 在 目录 的 所 有 子 目 录 。 通 过 计算 得 到 
一 个 由 网 站 或 文档 集 的 所 有 邻居 组 成 的 图 ， 对 于 每 个 网 页 ， 有 一 个 包含 它 所 有 邻居 网 页 的 文 
件 。 当 搜索 时 ， 整 个 索引 中 的 任何 查询 能 够 与 邻居 列表 求 交集 ， 产 生 相关 的 结果 。 这 种 在 一 
个 给 定 种 子 周围 动态 息 取 的 方法 来 自 MapuccinoL754，1067]， 又 被 Fetuccino 扩展 [178]. 
另外 ， 这 些 工具 增加 了 可 视 化 功能 按 需 显示 小 的 搜索 /浏览 地 图 。 事 实 上 ，Mapuccino 允许 
用 户 依照 自己 的 兴趣 〈 以 查询 来 表达 ) 动态 地 产生 网 站 地 图 。 依 照 用 户 兴趣 剪裁 的 导航 地 图 
在 相关 方向 具有 “更 长 的 辟 ”， 而 彩色 编码 的 结 点 指示 了 更 多 的 相关 内 容 。Fetuccino 扩展 了 
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Mapuccino 的 工作 ， 主 要 通过 更 先进 的 基于 XML 的 可 视 化 方法 以 及 两 步 搜索 过 程 ， 该 过 程 
允许 用 户 在 区 别 领 域 查询 和 领域 内 的 聚焦 查询 。 这 个 工具 发 展 为 IBM Websphere 的 网 站 管 
理 和 站 点 分 析 工 具 。 同 样 ， 很 多 网 站 地 图 工具 演变 成 商业 化 的 网 站 分 析 工 具 。 这 些 例子 包 
括 ， 早 期 的 NetCarta 工具 演变 成 微软 的 SiteAnalyst、Dynamic Diagrams 的 MAPA, Surf- 
Serf. Merzcom 的 Merzscope, CLEARweb, Astra SiteManager, InContext 的 WebAnalyz- 
er, LA SmartBrowser 的 HistoryTree。 问 题 是 对 于 搜索 结果 的 可 视 化 没有 一 个 确定 的 标 
准 ， 尽 管 早期 提出 了 一 些 基 于 XML 的 方案 ， 如 [34]. 

还 有 其 他 一 些 使 用 可 视 化 的 浏览 工具 ， 它 们 可 以 被 宽泛 地 分 成 两 类 : 为 可 视 化 Web F 
集 而 设计 的 工具 和 为 可 视 化 大 型 答案 而 设计 的 工具 。 这 两 种 情况 都 需要 以 合理 的 方式 表示 很 
大 的 图 。 可 视 化 Web 子 集 的 非 商业 性 的 例子 包括 WebMap[ 504], Sitemap, Ptolomeaus, 
以 及 很 多 更 早 的 研究 [52，530，1139，1161]。 我 们 不 讨论 更 通用 的 可 视 化 软件 ， 其 中 
Web 可 视 化 只 是 一 个 特定 情况 ， 也 不 讨论 其 他 有 关 的 可 视 化 工具 ， 如 Web 用 途 分 析 (Web 
usage analysis) 等 [619，1274，1513]。 可 视 化 大 型 答案 的 方法 已 经 在 第 2 章 中 介绍 过 了 。 

总 之 ， 尽 管 可 视 化 的 浏览 工具 通常 非常 赏心悦目 ， 但 它们 还 没有 在 整个 Web 中 部 署 ， 
因为 它们 还 没有 证 明 对 用 户 提 供 的 额外 价值 。 


11.9.3 Web 查询 语言 


直到 现在 ， 我 们 都 专注 于 以 每 个 网 页 内 容 为 目标 的 查询 ， 而 没有 考虑 直接 查询 连接 网 页 
的 链接 结构 。 例 如 ， 我 们 可 能 希望 搜索 至 少 包 含 一 个 图 像 ， 并 且 从 给 定 网 站 通过 至 多 3 个 链 
接 可 以 到 达 的 所 有 网 页 。 为 了 允许 这 种 查询 ,不同 数据 模型 已 被 使 用 。 最 重要 的 模型 ， 一 个 
是 表示 网 页 〈 结 点 ) 和 网 页 之 间 的 超 链接 〈 边 ) 的 标记 图 模型 ， 另 一 个 是 表示 网 页 内 容 的 半 
结构 化 的 数据 模型 。 在 后 一 种 模型 中 ， 数 据 模式 并 不 总 是 事先 知道 ， 可 能 随 着 时 间 推 移 而 变 
化 ， 可 能 会 很 大 并 且 仅 是 解释 性 的 [5, 294]. 

尽管 在 Web 出 现 之 前 , 已 经 出 现 了 一 些 查询 超 文 本 的 模型 和 语言 C167, 416, 1138], 
但 第 一 代 Web 查询 语言 是 为 了 将 内 容 和 结构 相 结 合 〈 见 第 7 章 ) 。 这 些 语言 将 出 现在 文档 中 
的 模式 和 描述 链接 结构 (用 路 径 正 则 表达 式 ) 的 图 查询 结合 起 来 。 它 们 包括 W3QS[928], 
WebSQL[72，1120]、WebLog[L964] 和 WQL[L1020]。 第 二 代 是 Web 数据 操作 语言 ， 它 们 
强调 半 结 构 化 数据 。 然 而 ， 通 过 提供 对 网 页 结构 (模型 也 包括 内 部 结构 ) 的 访问 ， 以 及 允许 
创建 新 的 结构 作为 查询 的 结果 ， 它 们 扩展 了 之 前 的 语言 。 这 个 分 类 中 的 语言 包括 STRUQL 
[555], FLORID[767] 和 WebOPL[71]。 这 里 提 到 的 所 有 语言 都 是 给 程序 使 用 的 ， 而 不 是 
给 最 终 用 户 使 用 的 。 然 而 ， 有 些 用 于 这 些 语 言 的 查询 接口 的 例子 。 

Web 查询 语言 已 经 扩展 到 其 他 Web 任务 上 ， 如 从 网 页 上 抽取 和 整合 信息 ， 以 及 构建 和 
重建 网 站 。 关 于 Web 查询 语言 的 更 多 的 细节 可 以 在 Florescu, Levy 和 Mendelzon[ 569] 的 
一 个 很 好 的 综述 中 看 到 。 很 多 语言 启发 了 基于 XML 的 结构 化 文本 的 查询 语言 〈 见 13.6 节 )。 


11.9.4 动态 搜索 


在 动态 搜索 AMM BERRI, CALABAR Web 中 的 序列 搜索 ) 的 思想 是 动态 地 建 
立 搜索 语料库 ， 在 运行 中 通过 跟随 链接 来 发 现 相 关 的 信息 。 主 要 的 优点 是 允许 用 户 搜索 当前 Web 
的 “实时 ”结构 ， 而 不 是 由 搜索 引擎 索引 的 文档 集 。 换 名 话说 ， 它 相当 于 在 运行 时 爬 取 。 显 然 ， 
出 于 可 扩展 性 原因 ， 这 主要 是 为 小 的 、 动 态 Web 子 集 而 制定 的 ， 而 不 是 为 整个 Web 而 制定 的 。 
第 一 个 启发 式 设 计 是 香 搜 索 (fish search) [248]， 它 利用 了 这 样 的 直觉 ， 即 相关 的 文档 通常 具有 
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相关 的 邻居 。 随 后 ， 被 小 鱼 搜索 (shark search) 所 改善 [754]， 它 采用 了 之 前 在 可 视 化 搜索 功能 
中 提 到 的 Mapuccino/Fetuccino 工具 ， 可 以 对 邻接 网 页 进行 更 好 的 相关 性 评估 。 相 关 的 工作 包括 搜 
R Web 特定 信息 的 软件 代理 [L1202，970]。 这 意味 着 需要 处 理 那 些 必须 被 合并 的 异 质 信息 源 。 在 
这 种 情况 下 ， 重 要 的 问题 是 如 何 确定 相关 的 信息 源 ( 见 第 10 章 和 第 17 章 )。 


11.10 相关 问题 


11. 10. 1 计算 广告 学 


一 个 相关 的 Web 搜索 问题 是 计算 广告 学 ， 这 是 “一 个 新 的 科学 学 科 ， 是 信息 检索 、 机 
器 学 习 、 优 化 和 微观 经 济 学 的 交叉 学 科 ， 它 的 主要 挑战 是 在 一 个 特定 环境 中 找到 最 好 的 广告 
呈现 给 用 户 。 这 些 环境 包括 在 搜索 引擎 中 查询 (“广告 搜索 ”)、 阅 读 网 页 (“内 容 匹 配 ”)、 看 
电影 和 即时 聊天 等 ”[270]。 该 学 科 在 2009 年 9 月 第 一 次 成 为 斯 坦 福 大 学 的 课程 。 

计算 广告 学 主要 有 两 类 。 最 有 名 的 是 为 一 个 给 定 的 查询 匹配 广告 ， 在 结果 页 面 的 右 侧 显 
示 它 们 。 这 称 为 广告 搜索 (sponsored search), Ud Google Adwords 等 系统 的 核心 。 第 二 
种 是 为 用 户 所 请 求 的 给 定 页 面 找 到 正确 的 广告 。 这 种 情况 称 为 上 下 文 匹配 (contextual 
match), E Æ Google Adsense 或 Yahoo Context Match 等 系统 的 核心 。 

广告 本 身 可 以 分 为 两 类 : 图 像 或 基于 文本 (或 者 两 者 的 结合 ;。 广 告 显示 的 初始 模型 主 
要 是 图 像 ， 而 基于 搜索 的 模型 通常 是 基于 文本 的 。 在 很 多 情况 下 ， 广 告 的 放置 通常 被 一 个 叫 
做 广告 网 络 Cad-network) 的 中 介 协 调 。 商 业 模型 通常 是 ， 对 于 显示 广告 的 情况 ， 按 每 次 显 
示 进 行 支付 ; 或 者 通过 广告 搜索 或 者 上 下 文 匹 配 ， 按 每 次 点 击 进行 支付 。 另 一 种 模式 是 按 每 
次 行动 支付 ， 如 果 特 定 的 目标 行为 实现 了 ， 广 告 客户 才 会 支付 〈 例 如 出 售 产品 ) 。 

计算 广告 学 可 以 看 成 一 个 搜索 问题 ， 其 中 搜索 的 输入 ， 不 管 是 查询 还 是 页 面 内 容 ， 都 必 
须 与 广告 数据 库 进 行 匹 配 。 数 据 库 的 每 个 广告 至 少 有 一 个 标题 、 一 个 目标 URL 和 一 个 称 为 
创意 creative) 的 描述 ， 它 在 大 多 数 情况 下 是 文本 形式 。 与 经 典 的 Web 搜索 的 一 个 重要 的 
区 别 是 ， 在 上 下 文 匹配 的 情况 中 ， 搜 索 输 入 比 广告 本 身 要 长 很 多 。 由 于 创意 太 短 ， 与 查询 的 
纯 文 本 的 相似 度 (不 管 查询 是 短 的 还 是 长 的 ， 如 在 上 下 文 搜索 情 况 下 〉 不 会 为 用 户 带 来 是 够 
相关 的 广告 。 为 了 解决 这 个 问题 ， 创 意 由 大 量 关 键 词 的 列表 系统 性 地 增强 ， 这 或 者 由 广告 客 
户 产 生 ， 或 者 在 更 复杂 的 情况 下 由 广告 系统 提供 。 

焉 配 的 广告 必须 排序 ， 以 便 将 最 好 的 广告 展示 给 用 户 。 然 而 ， 这 里 对 于 “好 ”的 衔 量 不 
仅 基 于 相似 度 ， 而 且 还 基于 商业 的 考虑 。 事 实 上， 在 两 种 情况 了 下， 广告 客 户 都 通过 用 户 在 特 
定 内 容 上 的 点 击 次 数 付费 ， 直 到 他 们 预算 所 规定 的 限度 。 当 预算 支付 完 后 ， 就 不 再 显示 更 多 
的 广告 。 这 种 花费 被 广告 投标 〈 和 竞标 ) 的 拍卖 机 制 建 模 ， 其 标的 是 前 面 提 到 的 与 每 个 创意 
相关 的 关键 字 。 在 由 Goto 搜索 引擎 (后 来 更 名 为 Overture 并 被 雅虎 收购 ) 发 明 的 最 初 方案 
中 ， 这 种 顺序 完全 基于 投标 价格 。 然 而 ， 如 果 广 告 对 于 用 户 缺 乏 相 关 性 或 者 没有 价值 ， 那 么 
就 不 会 有 点 击 ， 模 型 就 会 失败 。 因 此 ， 主 流 搜索 引擎 实际 采用 的 方法 是 应 用 拍卖 竟 标 与 相关 
性 模型 的 结合 。 其 中 ， 拍 卖 竞标 指 的 是 广告 客户 对 特定 关键 词 的 出 价 ， 而 相关 性 模型 则 基于 
用 过 去 历史 估计 出 的 广告 的 期 望 点 击 率 〈Clickthrough Rate, CTR) 进行 预测 。 

还 有 一 些 研究 工作 致力 于 更 好 地 理解 广告 的 特征 和 用 户 点 击 它们 的 次 数 之 间 的 关系 ， 并 
观察 如 预期 的 那样 ， 更 相关 的 广告 可 以 增加 点 击 的 数量 。 计 算 广告 学 是 过 于 广泛 和 复杂 CE 
往 过 于 保密 ) 的 领域 ， 在 这 里 无 法 完全 覆盖 ,但 是 接 下 来 我 们 将 介绍 一 些 在 这 个 领域 上 近期 
发 布 的 研究 结果 。 
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Jones $A [850] 通过 尝试 将 大 量 的 查询 〈 用 户 提交 的 查询 集合 ) 与 非常 小 的 广告 列 
表 语 料 库 相 匹配 来 解决 这 个 问题 。 他 们 提出 ， 为 原始 查询 生成 蔡 代 查询 ， 以 便 拓宽 可 能 的 广 
告 集 合 ， 然 后 对 提出 的 查询 排序 。 这 是 通过 根据 预先 计算 的 查询 与 短语 的 相似 度 来 修改 部 分 
的 原始 查询 而 实现 的 。 数 据 从 搜索 引擎 查询 日 志 的 用 户 会 话 中 得 到 ， 因 为 大 多 数 用 户 通过 添 
加 或 删除 词语 来 重 构 原始 查询 。 通 过 结合 一 组 特征 ， 并 生成 一 个 能 够 最 好 地 描述 替代 查询 的 
组 合 模型 ， 他 们 比较 了 一 些 机 器 学 习 技术 。 他 们 观察 到 ， 当 所 包含 的 词语 的 编辑 臣 离 改变 比 
较 小 或 变化 比较 少时 ， 会 得 到 更 好 的 建议 结果 。 

还 有 些 方法 用 于 解决 上 下 文 广告 的 问题 。Ribeiro-Neto 等 人 [1350] 描述 了 一 个 针对 特 
定 上 下 文 广告 的 阻抗 耦合 (impedance coupling) 技术 ， 这 可 能 是 在 这 个 问题 上 第 一 次 发 布 
的 广泛 深入 的 工作 。 他 们 关注 于 将 有 关 的 广告 关键 词 与 网 页 文本 直接 匹配 的 算法 。 他 们 的 实 
验 比 较 了 10 种 不 同 的 基于 向 量 的 排序 函数 ， 结 果 显 示 通 过 采用 更 复杂 的 排序 函数 ， 对 于 给 
定 的 页 面 能 够 显示 出 更 好 的 广告 。 随 后 ，lacerda 等 人 [954] 探讨 了 应 用 遗传 算法 为 上 下 文 
广告 匹配 学 习 排 序 函 数 〈 可 能 是 对 这 个 问题 第 一 次 应 用 学 习 技 术 )。 他 们 显示 排序 函数 和 最 
好 的 阻抗 耦合 画 数 同样 有 效 ， 并 可 以 通过 完全 自动 的 方式 产生 。 紧 随 其 后 的 研究 主要 集中 在 
从 网 页 上 抽取 相关 的 关键 词 或 短语 ， 然 后 用 来 匹配 描述 广告 的 关键 词 。 因 为 那些 基于 将 网 页 
的 全 部 词语 与 广告 关键 词 相 匹 配 的 方法 〈 如 刚才 讨论 的 阻抗 耦合 算法 ) 在 实际 中 的 计算 代价 
比较 昂贵 ， 所 以 考虑 到 效率 问题 ， 这 是 非常 重要 的 。 

[1749] 提出 了 一 种 技术 ， 该 技术 从 文档 中 的 短语 和 关键 词 中 抽取 一 组 特征 ， 并 且 确 定 哪 些 
对 于 目标 广告 是 相关 的 。 他 们 总 共 使 用 了 40 个 特征 ， 其 中 一 些 特征 包括 关键 词 是 否 是 大 写 的 、 
是 否 包含 在 标题 中 、 是 否 在 元 数据 中 、 是 否 在 URL 中 、 是 否 是 名 词 等 。 他 们 也 发 现 使 用 搜索 引 
擎 的 查询 日 志 中 包含 的 查询 是 有 用 的 ， 因 为 这 些 是 人 们 所 使 用 的 关键 词 。 所 以 ， 如 果 一 个 文档 包 
含 一 些 这 样 的 短语 ， 就 可 以 用 做 文档 的 描述 。 他 们 从 MSN 搜索 引擎 中 抽取 了 750 万 条 英文 查询 。 
在 从 文档 中 收集 了 这 些 特征 之 后 ， 他 们 对 训练 集中 的 相关 关键 词 进行 了 手动 分 类 ， 然 后 用 一 个 监 
督学 习 方 法 来 对 未 见 过 的 文档 进行 分 类 。 为 了 比较 其 方法 的 性 能 ， 他 们 应 用 KEA[L891] 作为 基 
线 ， 得 到 了 更 好 的 结果 ， 不 过 这 可 能 是 由 于 他 们 使 用 了 更 多 的 特征 。 这 种 方法 允许 从 内 容 中 提取 
更 多 相关 的 关键 词 ， 从 而 获得 更 多 相关 的 广告 ， 增 加 整体 的 收入 。 

另 一 种 方法 由 Broder 等 人 提出 的 [277]。 他 们 不 是 应 用 描述 性 关键 词 来 匹配 短语 ， 而 
是 提出 一 个 抽取 语义 和 句法 特征 的 系统 ， 用 于 描述 文本 的 内 容 ， 然 后 将 它 与 广告 匹配 。 他 们 
使 用 由 美国 雅虎 建立 的 一 个 分 类 体系 ， 包 括 6000 个 描述 查询 的 概念 ， 其 中 每 一 个 结 点 包括 
KA 100 个 查询 。 为 了 使 用 这 种 分 类 体系 对 网 页 和 广告 分 类 ， 他 们 尝试 了 多 种 分 类 方法 。 最 
好 的 结果 是 通过 将 所 有 分 在 每 个 结 点 的 查询 串联 起 来 ， 产 生 一 个 元 文档 。 然 后 ， 他 们 应 用 这 
些 元 文档 作为 基于 Rocchio 分 类 器 的 最 近邻 分 类 的 中 心 ， 并 使 用 待 分 类 文档 和 分 类 中 心间 的 
RZEK., Ra. HNAS-T+HMRKE—-BRI (分 类 体系 的 主题 )。 为 了 得 到 特定 网 页 
的 最 终 相 关 广 告 ， 他 们 结合 了 从 分 类 中 得 到 的 语义 信息 (分 类 体系 得 分 或 TaxScore) 和 人 句 
法 特征 (关键 词 得 分 或 KeywordScore), 使 用 了 两 种 得 分 的 凸 组 合 。 

Score (p; ai) = a X TaxScore( Tax (p;),Taz(a;)) + (1—a) X KeywordScore (p; ,a;) 
其 中 p; Ma, 分 别 对 应 于 网 页 和 广告 ，Taz(z) 对 应 于 从 元 素 zx 〈 网 页 或 广告 ) 的 分 类 体系 
得 到 的 类 别 集 合 。 当 两 个 元 素 处 于 相同 的 结 点 或 者 有 相同 的 祖先 时 ，TaezrScore 应 该 通过 给 
出 较 高 得 分 来 反映 广告 和 网 页 间 的 语义 距离 。KeywordScore 通过 将 网 页 和 广告 在 ” 维 空间 
(每 维 对 应 一 个 项 ) 中 表示 来 得 到 ， 并 计算 向 量 间 的 余弦 相似 度 。 他 们 将 这 个 语义 -句法 方法 
与 纯 句 法 方法 进行 了 比较 ， 并 分 析 了 a 取 哪 个 值 可 以 得 到 更 好 的 结果 。 从 他 们 的 观察 可 以 推 
断 出 语义 信息 在 匹配 过 程 中 是 有 用 的 ， 这 是 由 于 纯 句 法 匹配 只 能 依赖 于 页 面 的 质量 。 


505 


506 


370 - 第 11 章 Web 检索 


11.10.2 Web 挖掘 


数据 挖掘 和 信息 检索 之 间 一 个 基本 不 同 是 ， 数 据 挖掘 必须 在 没有 确切 的 查询 或 者 信息 需 
求 的 情况 下 发 现 信 息 。 我 们 认为 ， 正 是 由 于 这 个 原因 ，Web 挖掘 超越 了 信息 检索 。Web 挖 
据 通 常 是 在 连续 的 三 个 阶段 进行 的 ， 即 数据 的 重新 收集 、 信 息 提取 和 分 析 ， 背 在 挖 据 三 种 基 
本 类 型 的 数据 ， 即 内 容 、 用 途 和 结构 。 

D 内 容 数 据 包 含 文本 和 多 媒体 。 

2) 结构 数据 包含 Web 的 链接 结构 在 更 细 的 级 别 ， 可 能 也 包括 XML 结构 ) 。 

3) 用 途 数 据 包 括 Web 日 志 、 点 击 数 据 和 用 途 访 问 模式 (usage access pattern), 

此 外 ， 必 须 考虑 一 个 正 交 的 时 间 维 ， 它 反映 了 网 页 增长 和 演变 的 动态 过 程 。 因 此 ， 内 
容 、 用 途 和 结构 由 时 态 数据 补充 。 第 一 种 和 第 三 种 类 型 在 [419] 中 涉及 ， 而 第 二 种 是 
[349] 的 主要 主题 。 另 一 本 通用 的 数据 挖掘 书籍 是 [1037]。 

内 容 挖 据 可 以 细 分 为 文本 挖 据 和 多 媒体 挖 气 。 文 本 挖 所 是 一 个 经 典 的 领域 ,超出 了 本 书 
的 范围 [552，1706]， 观 点 挖掘 是 现在 流行 的 问题 之 一 [1240]。 多 媒体 挖掘 则 更 新 ， 并 且 
最 近 已 经 与 其 他 情境 〈 如 地 理 和 多 样 性 ) AAA. 

链接 挖掘 是 Web 的 内 在 问题 ， 所 以 我 们 下 面 会 提供 更 多 的 例子 。ParaSite 系统 [1512] 使 用 
超 链 接 信息 来 发 现 那 些 已 经 迁移 的 网 页 、 相 关 的 网 页 和 个 人 网 页 。HITS 也 已 经 被 用 来 发 现 社区 
和 相似 的 网 页 [625，911]。 对 超 链接 结构 的 其 他 探讨 可 以 在 (352, 1086, 1273] 中 找到 。 这 个 
领域 进一步 的 提高 包括 Web 文档 聚 类 [269, 361, 1679] (已 经 提 到 过 )、 连 接 服务 (例如 询问 哪 
个 网 页 指向 一 个 给 定 的 网 页 [197]) 、 链 接 自动 生成 [671] 和 信息 提取 [226，261]。Web 垃圾 的 
一 些 结果 也 被 提 到 了 ， 代 表 着 链接 挖掘 的 一 种 特殊 情况 ( 见 11. 5. 7 节 ) 。 

Web 用 途 控 掘 是 我 们 今天 称 为 “群体 智慧 ”[1546] 的 一 个 最 好 的 例子 。Web 用 途 挖掘 
可 以 用 做 自 适 应 Web 设计 (例如 用 户 驱 动 的 Web 设计 )、 网 站 重组 、 网 站 个 性 化 和 某 些 性 
能 的 改进 。 与 搜索 相关 的 一 类 重要 的 Web 用 途 挖掘 是 查询 挖掘 ， 接 下 来 将 详细 介绍 ， 它 和 
搜索 引擎 也 有 内 在 的 联系 。 

查询 挖掘 

最 简单 的 查询 挖掘 直 接 与 搜索 用 途 相 关 ， 称 为 搜索 分 析 (search analytics) 。 这 是 对 与 
给 定 网 站 相关 的 搜索 研究 。 它 们 包括 来 自 搜 索引 擎 的 外 部 搜索 和 网 站 提供 的 搜索 框 中 进行 的 
内 部 搜索 。 第 一 种 情况 可 以 将 只 能 通过 搜索 发 现 的 页 面 与 通过 浏览 发 现 的 页 面 区 分 开 来 
[122]。 仔 细 分 析 搜 索 ， 可 以 识别 新 的 、 更 好 的 词 来 改善 锚 文 本 和 网 站 组 织 。 一 个 词 比 另 一 
个 词 更 能 满足 用 户 的 信息 需求 ， 这 个 属性 被 Pirolli[1268] 命名 为 信息 线索 (information 
scent) 。 内 部 搜索 提供 了 在 网 站 内 部 没有 很 好 得 到 满足 的 信息 需求 ， 包 括 无 点 击 结果 或 者 空 
结果 。 这 些 说 明 网 站 拥有 者 可 能 没有 意识 到 某 个 需求 ， 同 时 提供 了 相关 的 关键 词 。 甚 至 更 重 
要 的 是 ， 新 的 关键 词 预示 了 网 站 所 缺失 的 新 内 容 、 新 服务 或 者 新 产品 的 需求 [122]， 给 网 站 
未 来 的 发 展 带 来 了 很 多 洞察 力 。 事 实 上 ， 查 询 可 以 比 文档 内 容 更 好 地 描述 文档 [1282]。 其 
他 有 关 利 用 查询 来 改善 网 站 的 应 用 在 [1383」 中 涉及 。 

另 一 类 主要 的 应 用 是 使 用 查询 挖掘 来 改善 搜索 引擎 。 我 们 在 7. 2 节 已 经 介绍 了 查询 挖掘 
的 很 多 例子 ， 特 别 是 关于 意图 、 主 题 和 模糊 性 预测 。 其 他 例子 是 11. 7. 2 节 介 绍 的 查询 推荐 ， 
以 及 11.4.2 节 陈 述 的 基于 查询 的 缓存 和 索引 技术 。Baeza-Yates 等 人 [88，89] 和 最 近 的 
Silvestri [1481] 介绍 了 大 多 数 挖掘 查询 日 志 以 改善 搜索 引擎 的 应 用 程序 。 

然而 ， 查 询 日 志 的 另 一 个 应 用 是 语义 关系 的 提取 。 通 过 分 析 提 交 的 不 同 查 询 的 用 户 行为 
(如 点 击 数据 )， 可 以 推断 查询 的 语义 ， 发 现 语义 的 相似 度 。Baeza-Yates 等 人 [125] 分 析 了 点 


第 11 章 Web#R ， 371 


击 图 并 获得 有 趣 的 语义 关系 。 首 先 ， 对 于 日 志 上 的 每 个 查询 ， 作 为 查询 结果 可 以 获得 被 点 击 的 
URL 集合 。 这 个 URL 的 集合 被 称 为 URLAS UC) 或 者 点 击 图 。 每 个 查询 用 n 维 空间 内 的 
结 点 表示 ， 其 中 每 一 维 是 唯一 的 URL， 查 询 的 每 一 维 根据 URL 点 击 频率 设置 权重 。 随 后 ， 如 
果 有 相同 的 URL， 点 击 图 中 的 结 点 〈 查 询 ) 会 通过 边 相 连 ， 查 询问 的 余 芝 相 似 度 则 作为 边 的 
权重 。 最 后 ， 每 个 结 点 都 分 配 一 个 带 权 的 度 (weighted degree) ， 它 的 值 是 与 该 结 点 相连 的 所 有 
边 的 权重 之 各 除 以 该 结 点 的 度 。 使 用 这 种 图 ， 它 们 定义 查询 间 的 三 种 关系 : 

。 相同 的 覆盖 (UC 一 UCoe ) :一 条 无 向 边 ， 表 示 两 个 查询 覆盖 了 同样 的 URL， 因 此 


将 它们 定义 成 等 价 的 查询 。 

° 严格 完整 覆盖 (UC a CUC): 从 qı 到 q2 的 有 向 边 ， 代表 qı 比 qz 更 具体 这 样 的 语 
义 事 实 。 

。 部 分 覆盖 (UC NUC AD, HRW EEZ WRR: 这 是 最 典型 的 情况 ， 代 
表 查 询 间 部 分 相似 。 


使 用 这 种 查询 表示 和 它们 的 覆盖 图 ， 就 可 以 从 中 抽取 语义 信息 .存在 着 一 些 包含 多 个 主 
题 内 容 的 URL， 并 对 识别 查询 闻 的 语义 关系 有 着 消极 的 影响 。 它 们 观察 到 低 权重 的 边 很 可 
能 代表 较 弱 的 语义 关系 ， 这 就 意味 着 与 那些 结 点 相关 的 URL 可 能 是 多 主题 的 页 面 。 利 用 这 
种 观察 从 图 中 去 除 那些 URL， 以 减少 由 它们 造成 的 噪声 。 根 据 分 析 结 果 ， 可 以 观察 那些 只 
通过 单纯 的 语言 方法 不 能 确定 的 查询 间 关 系 ， 因 为 这 种 技术 是 语言 独立 的 。 例 如 ， 反 复出 现 
的 一 些 错 别 字 将 产生 Web 但 语 〈Web-slang)， 这 只 能 从 用 途 分 析 中 确定 。 另 外 一 个 有 趣 的 
研究 方向 包括 从 查询 建立 一 个 层次 式 的 分 众 分 类 法 [584]. 


11. 10. 3 元 搜索 


元 搜索 是 给 多 个 搜索 引擎 、Web 目录 和 其 他 数据 库 发 送 特 定 查询 的 Web 服务 器 ， 它 收 
集 答案 并 将 它们 组 合 到 单一 排序 的 列表 中 。 它 们 可 以 看 成 是 一 种 联合 搜索 ， 其 中 联合 的 来 源 
是 独立 的 搜索 引擎 ( 见 10.7 节 )。 元 搜索 在 Web 的 早期 是 很 流行 的 ， 那 时 搜索 引擎 还 很 少 
ms, RPA HE Metacrawler[L1448]、SawySearchL511] 和 VivisimoL1643]。 大 多 数 
元 搜索 引擎 已 经 消失 或 演变 了 (如 Vivisimo 转向 企业 搜索 )， 所 剩 不 多 的 元 搜索 引擎 包括 由 
Vivisimo 支持 的 Clusty? . Dogpile? 和 自称 为 “搜索 引擎 之 母 ” 的 Mammae 。 

在 如 何 对 组 合 结果 列表 进行 排序 〈 如 果 排 序 的话 )， 以 及 如 何 将 用 户 的 查询 转换 成 每 个 [508 
搜索 引擎 或 Web 目录 特定 的 查询 语言 (共同 的 查询 语言 会 很 少 ) 等 方向 ， 不 同 的 元 搜索 各 
不 相同 。 

元 搜索 的 优点 是 结果 可 以 通过 不 同 的 属性 〈 如 主机 、 关 键 词 和 日 期 ) 来 排序 ， 这 些 可 以 
比 单个 搜索 引擎 的 输出 提供 更 多 的 信息 。 因 此 ， 浏 览 结 果 应 该 更 简单 。 另 一 方面 ， 结 果 不 一 
定 覆 盖 最 相关 的 网 页 ， 因 为 每 个 搜索 引擎 返回 结果 的 数量 是 受 限 的 ， 较 差 来 源 的 结果 可 能 会 
被 提升 ， 损 害 了 第 二 个 搜索 引擎 产生 的 结果 。 这 是 只 进行 一 遍 处 理 的 联合 搜索 的 典型 局 限 
性 。 然 而 ， 直 觉 是 通过 多 样 化 的 来 源 ， 更 多 相关 结果 应 该 更 容易 被 检索 到 。 

在 这 个 方向 上 最 早 的 研究 之 一 是 NEC 研究 所 的 元 搜索 引擎 Inquirusl987, 986]. Inqui- 
rus 下 载 并 分 析 了 从 不 同 来 源 获 得 的 每 个 网 页 ， 一 旦 它们 变 得 可 用 ， 就 以 渐进 的 方式 显示 每 
个 页 面 〈 罕 出 显示 所 有 的 查询 项 ) 。 


© http://www. clusty. com, 
© http://www. dogpile. com, 
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元 搜索 的 应 用 是 合理 的 ， 通 过 早期 的 覆盖 度 研 究 表 明 ， 只 有 一 小 部 分 网 页 出 现在 所 有 搜索 引 
rh [198]。 事 实 上 ， 这 项 早期 研究 表明 ，AltaVista、HotBot、Excite 和 Infoseek 索引 的 网 页 中 
只 有 不 到 1% 出 现在 所 有 的 搜索 引 敬 中 。 近 期 的 研究 则 表明 重合 加 大 了 [136，1518]， 这 可 能 部 
分 地 解释 了 为 什么 元 搜索 的 流行 性 在 缓慢 地 下 降 。 企 业 搜索 环境 中 的 元 搜索 在 15. 3. 8 节 中 介绍 。 
对 于 特定 主题 的 元 搜索 可 以 认为 是 动态 搜索 软件 代理 ， 它 在 11. 9.4 中 介绍 。 

对 于 元 搜索 主要 的 批评 是 ， 它 们 就 像 寄 生 虫 ， 依 靠 在 搜索 引擎 之 上 ， 没 有 昂贵 的 计算 机 基础 
设施 的 投资 。 出 于 这 个 原因 ， 大 型 搜索 引擎 可 能 会 限制 它们 每 天 从 元 搜索 收 到 的 查询 量 。 


11. 11 趋势 和 研究 问题 


考虑 到 Web 从 五 年 前 才 开 始 大 量 使 用 ， 它 的 未 来 可 能 会 使 我 们 感到 惊讶 。 现 在 有 很 多 
不 同 的 趋势 ， 并 且 每 一 个 都 开辟 了 新 的 特定 研究 问题 。 下 面 将 快速 地 回顾 即将 出 现 的 数据 
源 ， 它 们 应 该 会 变 得 越 来 越 容易 获得 ， 然 后 概括 介绍 更 好 的 Web 检索 所 面 对 的 主要 趋势 和 
需要 解决 的 挑战 。 


11.11.1 静态 文本 数据 之 外 

这 里 我 们 认为 更 具 挑 战 性 的 数据 类 型 将 不 断 出 现 ， 即 暗 (hidden〉 页 面 或 动态 页 面 、 多 
媒体 数据 和 语义 数据 。 

1. 动态 数据 


相 比 于 按 需 产 生 的 内 容 ， 尤 其 是 在 查询 电子 商务 或 信息 服务 网 站 时 ， 静 态 Web 已 经 变 
得 很 小 了 。 现 在 的 息 取 软件 能 够 跟随 动态 链接 ， 但 是 这 必须 并 慎 地 进行 ， 因 为 动态 生成 的 网 
页 在 数量 上 是 没有 限制 的 。 

访问 查询 表单 背后 的 网 页 是 更 困难 的 ， 因 为 息 虫 对 于 数据 库 没 有 先 验 的 知识 。 这 类 网 页 
组 成 了 所 谓 的 深度 网 页 (deep Web)。 另 一 方面 ， 即 使 数据 库 是 已 知 的 ， 请 求 所 有 可 能 的 查 
询 可 能 太 消耗 时 间 (对 于 数据 库 的 大 小 是 指数 级 别 的 )， 即 使 我 们 只 采用 简单 的 查询 ， 其 中 
的 某 些 查询 也 可 能 永远 不 会 有 人 提出 。 如 果 人 允许 Web 服务 (Web service) 从 数据 库 中 学 习 ， 
特别 是 学 习 人 们 如 何 查询 ， 那 么 Web 服务 可 能 部 分 地 解决 了 这 个 问题 。 例 如 ， 获 取 最 频繁 
的 1 万 个 查询 已 经 足够 了 。 

2. 多 媒体 数据 i 

多 媒体 数据 包括 : 图像、 动画 、 不 同形 式 的 音频 和 视频 。 它 们 都 没有 普遍 认同 的 标准 格 
式 。 图 像 的 主要 格式 是 JPG、GIE # PNG, FRE MP3， 视 频 是 Real Video 或 者 Quick- 
time 等 。 理 想 的 解决 方案 是 使 用 同一 个 模型 和 单一 的 查询 语言 ， 搜 索 包 括 文本 在 内 的 任何 
类 型 的 数据 。 这 一 雄心 勃勃 的 目标 可 能 无 法 实现 。 

对 于 某 种 特定 的 数据 类 型 ， 我 们 能 够 开发 一 个 相似 度 模型 ， 根 据 其 类 型 而 改变 查询 语 
。 例 如 ， 通 过 示例 的 图 像 查询 ， 或 通过 哼 唱 的 音频 查询 (或 者 用 Shazam 模型 9 录音 )。 这 
个 领域 更 多 地 属于 图 像 和 信号 处 理 ， 而 不 是 经 典 的 信息 检索 。 

搜索 非 文本 对 象 在 不 久 的 将 来 将 更 加 重要 。 目 前 已 经 有 了 很 多 的 科研 成 果 ， 将 在 第 14 
章 中 讲 到 。 

3. 语义 数据 

语义 信息 的 两 个 主要 问题 描 是 描述 语义 的 元 数据 标准 和 对 于 给 定 信息 源 的 质量 或 信任 


Tilt 


© Shazam 是 一 个 很 酷 的 手机 应 用 ， 在 iPhone 和 Android L# A; 如果 在 手机 上 录制 数秒 钟 长 度 的 录音 ， 它 就 可 
以 通过 3G 连接 识别 歌曲 。 
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度 。 第 一 个 问题 由 万 维 网 联盟 处 理 ， 而 第 二 个 问题 所 要 求 的 认证 模式 目前 还 未 开发 出 来 。 
其 他 问题 是 一 些 常 见 问题 ， 如 扩展 性 、 变 化 率 、 缺 乏 参照 完整 性 〈 链 接 是 物理 的 而 不 是 逮 


辑 的 )、 


分 布 式 授权 、 异 质 的 内 容 和 质量 ， 以 及 多 信息 源 。 今 天 ， 一 项 主要 的 工作 是 开放 链接 


数据 (Open Linking Data) [1231]， 它 试图 增加 和 完善 Web 上 可 用 的 语义 资源 间 的 链接 。 

语义 搜索 引擎 代表 着 最 新 的 发 展 。 这 些 引擎 搜索 语义 网 数据 。 这 种 引擎 最 有 趣 的 代表 是 
Sindice 引擎 [1483]， 它 可 以 搜索 超过 几 千 万 个 RDF 文件 ， 总 共 可 能 包含 几 十 亿 个 三 元 组 。 
[101] 讨论 了 一 个 更 务实 的 语义 搜索 方法 。Wolfram Alphae 搜 索引 人 擎 使 用 了 一 个 完全 不 同 的 方 
法 ， 它 使 用 包含 事实 的 知识 数据 库 来 推断 出 查询 的 答案 。 由 于 这 个 原因 ， 它 被 称 为 答案 引擎 。 


11. 11.2 目前 的 挑战 


Web 搜索 是 一 个 快速 发 展 的 研究 和 开发 领域 ， 我 们 列 出 了 一 些 现 有 的 挑战 ， 它 们 需要 
付出 更 多 的 努力 来 解决 。 


分 布 式 体系 结构 。 必 须 找 出 新 的 遍历 和 搜索 Web 的 分 布 式 方案 来 应 对 Web 的 增长 。 
这 将 影响 当前 的 爬 取 和 索引 技术 ， 以 及 Web 缓存 技术 。 我 们 很 想 知道 未 来 的 瓶颈 会 
在 哪里 ， 是 服务 器 的 容量 还 是 网 络 带宽 ? 

建 模 。 仍 然 需要 更 多 为 Web 量 身 定做 的 信息 检索 模型 。 此 外 ， 搜 索 仍 然 主 要 是 “ 拉 ” 
(pull) 范式 ， 即 用 户主 动 启动 搜索 ;但 为 了 更 好 的 用 户 体验 , “W” (uh 范式 仍然 需 
要 进一步 地 探索 。 在 这 两 种 情况 下 ， 我 们 需要 更 好 的 搜索 模式 和 更 好 的 信息 过 滤 。 
查询 。 在 查询 中 ， 需 要 进一步 探索 结构 与 内 容 的 结合 ， 以 及 新 的 查询 和 答案 的 可 视 
化 表示 [118]。 未 来 的 查询 语言 可 能 包括 基于 概念 的 搜索 、 自 然 语言 处 理 ， 以 及 示 
ARR GEKA Web 上 的 文档 聚 类 和 分 类 )。 另 一 个 关键 问题 是 确定 查询 背后 的 
需求 : 信息 型 、 导 航 型 或 事务 型 ， 以 及 更 细 分 的 意图 。 根 据 统 计 ， 不 到 50% 的 查询 
是 第 一 类 ， 这 是 典型 的 情况 。 一 种 替代 的 方法 是 为 查询 语言 增加 所 需 信 息 的 环境 ， 
如 类 型 或 时 间 。 因 此 为 了 更 好 地 理解 用 户 行为 ， 需 要 广泛 地 研究 查询 日 志 。 

排序 。 需 要 更 好 的 排序 方案 ， 充 分 利用 内 容 和 结构 〈 网 页 内 部 和 超 链接 ) 。 特 别 地 ， 结 合 
或 比较 查询 相关 和 查询 无 关 的 技术 将 会 是 很 有 趣 的 。 一 个 与 广告 相关 的 问题 是 ， 搜 索引 
擎 可 能 将 某 些 网 页 排 在 很 高 的 位 置 ， 而 不 是 基于 网 页 的 真实 相关 性 〈 这 就 是 在 [1086] 
中 所 谓 的 搜索 引擎 说 服 (search engine persuasion) 问题 )。 这 也 包含 了 更 好 地 处 理 Web 
垃圾 ， 以 及 识别 高 质量 的 内 容 。Web 充斥 着 低 质 量 (句法 和 语义 ) 的 内 容 ， 包 括 噪 声 、 
不 可 靠 和 矛盾 的 数据 ， 更 不 用 说 对 可 疑 ( 恶 意 或 非 恶 意 ) 网 站 的 信任 问题 。 另 一 个 挑战 
是 为 特定 用 户 或 一 组 用 户 提供 相对 应 的 排序 ， 即 围绕 着 个 人 或 意图 的 个 性 化 。 相 关 性 是 
基于 个 人 的 判断 ， 所 以 基于 用 户 轮廓 或 者 基于 用 户 上 下 文 信息 的 排序 可 以 有 帮助 。 
索引 。 尽 管 这 个 领域 的 研究 和 创新 已 经 很 入 了 ， 但 还 是 有 很 多 额外 的 问题 需要 解决 。 
这 些 例子 包括 : 文本 的 最 佳 逻辑 视图 是 什么 ”应 该 索引 什么 ?” 如 何 利用 更 好 的 文本 
压缩 方案 来 实现 快速 搜索 并 降低 网 络 流 量 ? 如 何 有 效 地 压缩 单词 列表 、URL 表 ， 并 
在 没有 显著 的 运行 时 间 损 失 的 情况 下 更 新 它们 ? 如 何 维护 索引 的 新 鲜 度 ? 很 多 实现 
细节 必须 解决 和 改善 。 

消除 重复 的 数据 。 我 们 需要 更 好 的 机 制 来 检测 和 消除 重复 网 页 (或 句法 非常 相似 的 
网 页 )。 最 初 的 方法 是 基于 使 用 文档 指纹 的 类 似 性 度量 [267，269]j， 正 如 我 们 在 
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11. 6. 4 节 中 所 看 到 的 。 这 与 数据 库 中 寻找 相似 对 象 的 重要 问题 相关 。 这 个 问题 的 一 
个 变种 可 以 处 理 通 过 搜索 引擎 发 现 的 、 受 到 排序 影响 的 其 他 网 页 产生 的 内 容 L120]. 
第 12 章 覆 盖 了 这 个 话题 。 

用 户 交 互 。Web 搜索 引擎 的 前 端 ， 无 论 是 搜索 矩形 还 是 SER. 范式 ， 基 本 上 是 搜索 
引擎 战争 的 前 线 ， 这 对 于 在 竞争 中 保留 或 者 获取 用 户 是 决定 性 的 。 事实 上 ,终端 用 
户 越 来 越 难 以 评价 相关 性 ， 他 们 的 看 法 强烈 地 受到 网 页 上 用 户 体验 的 影响 。 常 见 的 
危险 是 塞 满 页 面 ， 落 人 到 “多 即 是 少 ”的 陷阱 ， 但 这 个 领域 还 可 以 快速 地 继续 发 展 。 
其 他 可 探索 的 领域 包括 更 好 地 抽取 页 面 的 主要 内 容 ， 或 者 基于 内 容 的 查询 描述 
[1593]。 另 一 个 挑战 是 更 好 地 使 用 用 户 的 反馈 ， 无 论 是 通过 显 式 的 用 户 评 价 还 是 通 
过 网 络 日 志 中 的 隐 式 反馈 。 

浏览 。 这 是 一 个 值得 重新 审视 的 领域 ， 可 以 利用 链接 、 网 页 的 流行 度 、 内 容 相 似 性 、 
协作 、3 维和 虚拟 现实 等 技术 ， 特 别 注意 混合 检索 /浏览 方法 。 

适应 小 规模 语料库 。 这 是 一 个 敏感 的 领域 ， 尤 其 是 对 于 不 想 开 放 内 网 的 企业 ， 以 及 
仍然 具有 很 少 Web 内 容 的 新 兴国 家 。 由 于 语料库 的 规模 有 限 ， 因 此 没有 足够 的 内 
容 / 用 途 和 链接 数据 来 应 用 群体 智慧 的 方法 。 这 导致 了 在 大 规模 的 互联 网 比 小 的 企业 
域 更 容易 找到 信息 。 

搜索 时 的 内 容 传送 。 搜 索 可 以 看 做 是 在 给 定 的 时 间 内 传送 用 户 想 要 的 内 容 这 一 普遍 
问题 的 一 个 十 分 特殊 的 情况 。 在 搜索 的 情况 下 ， 这 个 动作 是 用 户 驱 动 的 。 另 一 方面 ， 
也 可 以 是 上 下 文 驱动 的 (例如 ，Broder [272] 的 信息 提供 范式 )。 因 此 ， 我 们 该 如 
何 通 过 设计 所 请 求 网 页 的 内 容 来 匹配 当前 基于 用 户 的 完整 上 下 文 (包括 用 户 本 身 、 
历史 、 位 置 等 )? 

查询 日 志 的 隐私 。 查 询 日 志 的 使 用 对 于 搜索 引擎 是 非常 重要 的 。 然 而 ， 在 2006 年 的 
AOL 事件 9? 后， 已 经 清楚 地 知道 ， 有 可 能 从 查询 分 布 的 长 尾部 分 中 识别 用 户 
[141]。 即 使 我 们 不 能 识别 一 个 用 户 ， 但 年 龄 、 性 别 或 收入 这 样 的 信息 也 是 隐私 。 出 
于 这 个 原因 ， 有 些 用 户 不 喜欢 被 搜索 引擎 跟踪 ， 例 如 他 们 在 每 个 会 话 后 删除 cookie, 
由 于 这 个 趋势 ， 很 多 研究 人 员 试 图 找到 一 些 方式 来 和 研究 人 员 分 享 查询 记录 ， 但 要 
保持 完全 的 匿名 。 然 而 对 于 非常 罕见 的 查询 ， 似 乎 并 不 可 能 。 更 多 的 细节 见 Cooper 
非常 优秀 的 综述 L420]， 以 及 在 本 章 结尾 的 更 多 参考 文献 。 

社交 网 络 。 我 们 对 于 社交 网 络 如 何 演变 的 理解 仍然 很 少 。 此 外 ， 怎 么 能 够 将 社交 网 
络 用 做 其 他 用 途 ， 如 发 现 专 家 或 社区 、 重 要 的 路 由 信息 等 ， 都 需要 更 多 的 研究 。 另 
一 个 重要 的 方面 是 社交 网 络 和 语义 网 的 关系 [1128]. 


11. 12 文献 讨论 


有 数 百 本 关于 Web 的 书 。 其 中 很 多 包括 搜索 Web 和 用 户 提示 的 一 些 信息 。 早 期 由 


Abrams 编辑 的 一 本 书 中 包含 了 Web 搜索 的 内 容 [8]。 其 他 较 早 的 来 源 是 《Scientific Amer- 
ican》( 科 学 美国 人 ) 杂志 关于 互联 网 的 专刊 (1997 年 3 月 ) 和 《IEEE Internet Computing) 
CEEE 互联 网 技术 ) 关于 搜索 技术 的 专刊 (1998 年 7 月 和 8 H). 


对 Web 建 模 的 更 多 信息 ， 建 议 查 看 Baldi 等 人 的 书籍 [130]. 
最 近 涉 及 Web 检索 的 书包 括 Witten 等 人 的 《Web Dragons) [1708], H Spink 和 Zim- 


参见 http: //en. wikipedia. org/ wiki/ AOL_search_data_scandal, 
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mer 编辑 的 多 学 科 文 集 [1522] 和 Croft 等 人 的 搜索 引擎 书籍 [449]。 关 于 分 面 搜索 的 更 多 
信息 可 以 在 [1607] 上 找到 ， 另 外 协同 Web 搜索 可 参见 [1156]. 

AX Web 搜索 的 早期 综述 包括 (64, 268, 348,°745, 747, 1586], HEH AH 
个 好 的 综述 是 [746]。 信 息 线 索 的 主题 在 (369, 370, 1269] PRIE. KFREAARE 
网 络 的 更 多 内 容 可 以 在 [907, 1142, 1199, 1341] PRE, XF Web 长 尾 效应 的 影响 ， 可 
以 参见 Anderson 的 书籍 [50]. 

关于 缓存 答案 最 新 的 比较 参见 Gan 等 人 L617]. 

对 于 高 效 地 计算 PageRank 以 及 它 的 属性 已 经 有 许多 研究 了 ， 可 能 多 于 真正 需要 的 。 这 
个 领域 的 主要 研究 结果 是 [19，200，220，221，636，718，870，869，992，1111]。 如 果 
需要 更 多 的 细节 ， 我 们 建议 读者 参阅 Langville 和 Meyer 的 书籍 [976] 和 Berkhin 的 综述 
[189]。 

更 多 关于 链接 分 析 的 信息 可 以 在 Thelwall 的 书籍 [1575] 和 Henzinger[746] 的 综述 中 
看 到 。 利 用 链接 进行 排序 的 其 他 算法 包括 [238，239，311，576，943，1200]。 

如 何 优 化 一 个 简单 的 排序 函数 的 很 好 的 例子 是 Singhal 等 人 的 [1484]. 

最 近 几 年 已 经 提出 了 一 些 排序 学 习 技 术 。 在 点 式 方法 中 ,我 们 有 判别 式 信息 检索 模型 
[1170] 和 MCRank[1019]。 在 对 式 方法 中 ， 我 们 可 以 查阅 RankBoostL591]、Ranking SVM 
L748], RankNet[296], IR-SVM[330], FRank[1603], MHR[1308] 和 QBRank[1782]. 
在 列 式 情况 下 ， 我 们 有 LamdaRank[ 295, 507], ListNet[331], RankCosine[1307], SVM- 
MAPL1759]、AdaRank[1733] 和 SoftRank[1566, 684], Fen 等 人 研究 了 后 者 的 损失 函数 
[1726]。 一 个 最 近 的 综述 来 自 Liu [1064]. 

从 点 击 数据 进行 排序 学 习 的 工作 可 以 参见 [846，1322，1323]。 学 习 也 被 应 用 到 其 他 问 
题 上 ， 如 Web 搜索 结果 聚 类 [1768]、 点 击 预测 [18，1280] 或 者 在 线 排序 [1632]。 总 体 
来 说 ， 尽 管 只 是 部 分 地 解决 了 这 个 问题 ， 但 “排序 学 习 ” 已 经 成 为 信息 检索 领域 一 个 重要 的 
研究 问题 。 尽 管 存在 这 些 挑战 ， 但 这 个 领域 是 很 有 前 途 的 ， 它 能 够 将 隐 式 和 显 式 的 用 户 信 和 号 
相 结 合 ， 以 便 提 高 结果 的 质量 。 

许多 研究 人 员 都 关注 使 用 给 定 的 类 似 度 阐 值 来 找到 重复 的 文档 ， 特 别 是 Garcia-Molina 
及 其 合作 者 在 数字 图 书馆 环境 下 的 工作 L618，1465，1466，1467]。 其 他 一 些 人 关注 于 文档 
EHHEZ (565, 1154, 1155], match 算法 的 改进 在 [924，925] 中 讨论 。 

关于 计算 广告 学 的 进一步 研究 参见 [275，1319，1350]。 更 多 的 结果 可 以 在 WWW 会 
议 的 Monetization track 看 到 。 

最 近 ， 一 系列 关于 查询 隐私 的 论文 已 经 发 表 ， 特 别 是 研究 匿名 技术 [11, 848, 849, 
929, 946, 1728, 1781]. Bar-Yossef 和 Gurovich 已 经 说 明了 ， 如 何 通 过 使 用 查询 建议 工具 
来 估计 查询 频率 和 网 页 的 效果 [137，138]。 查 询 日 志 的 隐私 问题 已 扩展 成 在 网 站 环境 下 的 
商业 隐私 问题 L1283]。 隐 私 在 社交 网 络 中 也 是 重要 的 (1781). 

此 外 ， 最 好 的 Web 文献 来 源 是 Web 本 身 。 刚 开始 ， 有 很 多 网 站 对 搜索 引擎 和 Web H 
录 专 门 进行 告知 和 评级 。 其 中 ， 我 们 可 以 找到 Search Engine Watch[L1543] 和 Search 
Engine ShowdownL1209j。 关 于 Web 特点 的 一 个 很 好 目录 是 [503]j。 提 供 Web 搜索 参考 内 
容 的 其 他 来 源 有 万 维 网 联盟 或 W3C (www. w3c. org)、 万 维 网 杂志 (World Wide Web jour- 
nal，w3j. com) 和 WWW 会 议 系列 Chttp; //www. iw3c2. org/)。 这 些 及 其 他 参考 内 容 在 本 
书 的 网 页 中 可 以 找到 ( 见 第 1 章 )。 
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12.1 介绍 


Pye Ret (Web Crawler, RAMA MK. MAA, MAMKAMBA) 是 一 种 从 
Web 上 自动 下 载 网 页 的 程序 。 在 网 页 检索 领域 ， 了 息 虫 抓 取 到 的 网 页 将 用 于 索引 和 搜索 ( 见 
第 11 章 )。 不 同 于 其 名 字 ， 网 络 息 虫 并 不 像 病 毒 或 智能 代理 那样 在 Web 上 的 机 器 之 间 转 移 ， 
而 是 向 其 他 地 方 的 Web 服务 器 发 送 文 档 请 求 。 

让 我 们 从 一 些 具 有 历史 意义 的 网 络 疏 虫 开 始 。1993 年 6 月 ， 一 名 叫 Mattew Gray 的 麻 
省 理工 学 院 (MT) 的 本 科 生 将 下 面 这 段 消 息 发 送 到 www-talk 邮件 列表 中 C669]: 

我 写 了 一 个 Perl 脚本 ， 它 在 万 维 网 上 漫游 ， 收 集 URL， 并 跟踪 它 已 访问 过 的 

地 方 和 新 发 现 的 站 点 。 最 后 ， 如 果 能 创建 一 些 代码 ， 使 它 能 返回 一 些 更 有 用 的 信息 

(现在 它 只 返回 URL)， 那 么 我 将 能 生成 一 个 关于 这 些 网 页 的 可 搜索 的 索引 。 

当时 这 个 项 目 叫做 WWWW (World Wide Web Wanderer)， 后 来 成 为 第 一 个 网 络 息 虫 。 
它 那 时 最 多 用 于 Web 刻画 研究 [668]， 并 且 代 表 着 一 个 重要 的 进步 。 为 了 说 明 这 一 点 ， 第 
一 个 Web 搜索 引擎 叫 ALIWEB (Archie-Like Index of the Web), H Martijn Koster F 1993 
年 开发 。 它 要 求 网 站 发 布 它 们 本 地 网 页 的 部 分 索引 ， 但 只 有 少数 网 站 会 这 么 做 。 通 过 使 用 息 
虫 从 网 站 上 自动 地 收集 网 页 ， 现 代 搜 索引 擎 规避 了 这 种 不 便利 。 

自然 可 以 想到 ， 自 动 假 虫 将 导致 搜索 引擎 的 产生 。 事 实 上 ， 在 1994 年 6 H, PRIK 
学 的 一 名 叫 Brian Pinkerton 的 博士 生 将 下 面 这 条 消息 发 到 了 comp. infosystems. announce 新 
闻 组 [1265]: 

WebCrawler 索引 现在 可 以 用 于 搜索 了 1 索引 的 范围 很 广 : 它 包 含 了 来 自尽 可 

能 多 的 不 同 站 点 的 信息 。 它 是 个 很 棒 的 工具 ， 在 手动 浏览 时 能 帮助 定位 多 个 不 同 的 

起 始点 。 当 前 的 索引 基于 全 球 范围 内 接近 4000 台 服 务 器 上 的 文档 内 容 。 

SRG, Web 规模 持续 快速 地 增长 ， 从 1993 年 到 1996 年 ， 每 年 的 网 站 数量 均 翻 倍 
[670] ， 最 终 导 致 了 搜索 引擎 应 运 而 生 。 而 WebCrawler 在 变 成 一 篇 学 位 论文 之 前 就 取得 了 
商业 上 的 成 功 。 基 于 网 络 怜 虫 的 其 他 搜索 引擎 随后 纷纷 出 现 ， 包 括 Lycos (1994 年 )、 
Excite (1995 年 ) AltaVista (1995 年 ) 和 Hotbot (1996 年 )。 它 们 与 AOL、 和 雅虎 等 公司 
提供 的 目录 服务 竞争 。 在 当时 ， 因 为 Web 规模 比较 小 ， 所 以 目录 服务 是 一 种 更 有 效 的 搜索 
信息 的 方法 。 

如 今 ， 所 有 主要 的 搜索 引擎 都 使 用 网 络 息 虫 , 它们 的 访问 量 占 到 网 站 所 有 访问 量 的 
10% 以 上 [1205]。 有 效 的 网 络 息 虫 是 现代 搜索 引擎 取得 成 功 的 关键 。 而 且 在 很 大 程度 上 ， 
“Web 之 所 以 仍然 对 人 类 用 户 来 说 是 易 理解 的 ， 就 是 因为 这 些 自动 代理 持续 地 分 析 和 监测 它 
们 ”[524] 。 

网 络 候 虫 把 多 个 种 子 网 页 作为 输入 ， 然 后 经 过 下 载 、 分 析 和 扫描 等 处 理 过 程 来 获取 新 链 
接 。 对 于 指向 未 下 载 网 页 的 链接 ， 将 它们 加 到 一 个 中 央 URL 队列 中 ， 用 于 后 续 处 理 。 然 后 
爬虫 从 队列 中 选择 一 个 新 的 网 页 进行 下 载 ， 这 个 过 程 不 断 重复 ， 直 到 满足 某 个 停止 条 件 。 一 


第 12 章 WebMRM ° 377 


A+ 4) 18) A GSE 12-1 所 示 。 在 12.4 49, BADR ee, ES 
Bas HH NG Hs BE AS FRAG S 


| Crawling( seed pages S ) 








(1) URLQueue — S 

(2) dof{ 

(3) p — Select-URL( URLQueue ) 

(4) content — Download( p ) 

(5) (text, links, structure, ---) — Parse( content ) 

(6) URLQueue — Add-new-links( URLQueue, links ) 

(7) // Process text, structure, --- depending on the application 





(8) } until( stop criterion ) 
12-1 一 个 十 分 简单 的 Web ERA 


在 接 下 来 的 章节 中 ， 我 们 将 描述 网 络 息 虫 的 可 能 应 用 ， 然 后 讨论 息 虫 的 调度 算法 及 其 评 
价 。 最 后 ， 我 们 将 介绍 现 阶段 的 趋势 、 研 究 课 题 以 及 相关 的 文献 讨论 。 


12.2 Pye Re AY By A 


网 络 疏 虫 最 主要 的 应 用 就 是 建立 一 个 包含 宽泛 主题 (通用 Web 搜索 ) 或 者 特定 主题 
(垂直 We 搜索 ) 的 索引 。 网 络 爬 虫 还 用 于 对 网 页 内 容 归档 ， 以 及 自动 地 分 析 网 站 以 抽取 统 
计数 据 《Web 刻画 )。 对 某 些 特定 的 网 站 来 说 ， 网 络 疏 虫 用 来 提高 其 设计 〈 网 站 分 析 )， 或 
者 保留 它们 网 页 的 备份 (Web 镜像 )。 


12.2.1 通用 Web 搜索 


Web 搜索 是 近 几 年 推动 网 络 疏 取 技 术 发 展 的 应 用 ， 大 致 可 以 分 为 通用 Web 搜索 和 垂直 
Web 搜索 ， 前 者 被 各 大 搜索 引擎 所 采用 ， 后 者 限定 在 某 一 主题 、 某 一 国家 或 语言 。Web 检 
索 在 第 11 章 已 详细 介绍 。 

一 个 面向 通用 Web 搜索 引擎 (general Web search) AY MG HMA TE BOF Ek HE (cov- 
erage) 和 质量 (quality), HHA ZREBERADARERAEESHMRKRASRSA a 
HAM. AERBRRAMMRWKARH RR. KAERRA ARKAE., PU 
个 目标 可 能 会 冲突 。 因 此 ， 疏 虫 需要 根据 一 系列 复杂 的 策略 来 工作 ， 我 们 将 在 12.5 Wit 
论 它 。 

另 一 方面 ， 一 个 面向 乍 直 Web 搜索 (vertical Web search) HIGH SHEFF Web 的 一 个 
特定 子 集 。 可 以 从 地 理 、 语 言 或 者 主题 等 方面 对 这 些 目标 网 页 子 集 进行 定义 。 例 如 ， 有 些 流 
行 的 垂直 蛋 虫 应 用 程序 建立 了 垂直 门户 〈 也 叫做 vortals® ) ， 这 些 门户 为 特定 用 户 的 相关 需 

= BR 

ER RAARMAAAN BARA, LERA AURERE BAIR 
的 一 个 最 常见 的 形式 就 是 网 店 机 器 人 (shop-bot)， 它 从 在 线 商店 目录 下 载 信息 ， 并 提供 一 
个 界面 来 集中 比较 各 个 价格 。 另 一 个 例子 是 新 闻 爬 下 (news crawler)， 它 从 一 系列 事先 定 
义 好 的 源头 收集 新 闻 。 它 的 主要 目的 是 不 断 地 了 息 取 新 闻 ， 并 频繁 地 更 新 这 些 信息 ， 以 保持 其 


© http://www. wordspy. com/words/vortal. asp. 
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新 鲜 度 。 在 生成 这 些 网 页 集合 后 ， 这 些 新 闻 网 页 会 被 聚 类 以 检测 重复 内 容 和 相同 主题 ， 最 后 
以 聚合 的 形式 展示 给 用 户 。 

在 Web 上 ,同样 存在 一 些 带 有 恶意 的 息 忠 ， 如 为 了 得 到 嵌 在 网 页 中 的 电子 邮件 
(E-mail》 地 址 的 候 忠 ， 以 便 发 送 垃 圾 广告 邮件 到 这 些 E-mail 地 址 。 这 种 类 型 的 息 忠 叫做 垃 
圾 机 器 人 (spambot)。 因 为 E-mail 地 址 很 容易 识别 ， 并 且 存 在 某 些 公共 的 邮件 列表 存档 
(这 是 E-mail 地 址 的 一 个 主要 来 源 )， 所 以 垃圾 机 器 人 相对 容易 部 署 ， 也 十 分 有 效 。 对 于 垃 
圾 机 器 人 的 一 个 对 策 是 混淆 E-mail 地 址 ， 用 术语 来 说 就 是 “地 址 整理 ”(address munging)。 

517] ”比如 说 ， 用 一 张 图 片 来 展示 E-mail 地 址 ， 或 者 对 其 编码 。 

特殊 格式 的 重 直 有 爬 取 

垂直 检索 也 包括 按照 图 片 、 音 频 或 者 视频 对 象 等 数据 格式 来 分 割 的 过 程 。 在 这 类 例子 
中 ， 疏 虫 设计 为 只 收集 特定 类 型 的 对 象 ， 也 就 是 说 生成 限定 于 某 个 特定 数据 格式 的 数据 集 。 
PRN, CiteseerX° 以 及 其 他 文献 服务 所 使 用 的 息 虫 通常 仅仅 索引 PDF, Postscript 和 Bibtex 
格式 的 文件 。 同 样 ， 一 个 “feed Ehk” (RDF 让 虫 的 一 个 特例 ) 只 检测 网 站 上 RSS 或 RDF 
格式 文件 的 更 新 ， 这 种 类 型 的 息 虫 通常 应 用 于 网 页 新 闻 素 合 器 ， 以 便 周 期 性 地 检测 一 些 预先 
设 定好 的 网 站 更 新 。 


12.2.2 BERR 


WHR NC BL A FO A ae ES RR BS, ARR AT FEE AR Be & 
(focused crawler), RRMAARKAAREERHMH, MABRRET Web。 这 是 一 个 
更 加 有 效 的 策略 ， 因 为 它 避 免 候 取 不 必要 的 网 页 [353] 。 

聚焦 息 虫 以 对 某 个 主题 的 描述 作为 输入 ， 通 常会 用 驱动 查询 (driving query) 或 者 一 系 
列 已 知 属于 该 主题 的 样 例文 档 来 描述 这 个 主题 。 育 焦 息 虫 的 输出 是 与 给 定 主题 很 有 可 能 相关 
的 更 大 规模 网 页 的 列表 。 扑 忠 能 以 批量 模式 工作 ， 周 期 性 地 收集 网 页 ， 或 者 以 用 户 查 询 驱 动 
按 需 收集 网 页 。 我 们 将 在 12.5.1 节 进 一 步 讨 论 素 焦 爬 取 。 


12.2.3 Web 刻画 


Web 刻画 是 组 建 有 效 Web 搜索 引擎 的 先决 条 件 ， 它 包括 获取 网 页 的 所 有 统计 属性 。 对 
于 Web 刻画 ， 一 般 来 说 ， 最 显而易见 也 是 最 困难 的 问题 是 ， 用 什么 来 代表 Web。 这 是 一 个 
特别 困难 的 问题 ， 因 为 即使 Web 只 包含 有 限 的 信息 ， 它 也 可 能 包含 无 穷 多 的 网 页 。 

当 网 络 疏 虫 用 于 Web 刻画 时 ， 起 始 的 种 子 网 页 和 用 于 挑选 新 网 页 的 息 取 策略 对 刻画 的 
结果 有 着 很 大 的 影响 。 在 这 方面 ， 以 网 页 为 中 心 的 刻画 ， 由 于 其 目的 在 于 衡量 页 面 大 小 、 技 
术 、 标 记 和 其 他 网 页 属性 ， 所 以 要 比 以 链接 为 中 心 的 刻画 受到 更 少 的 影响 。 对 于 以 链接 为 中 
心 的 刻画 来 说 ， 如 何 选择 扑 虫 的 起 始 URL 是 十 分 关键 的 ， 如 果 没 有 很 好 地 选取 种 子 URL, 
那么 观察 到 的 Web 的 宏观 结构 可 能 就 会 有 较 大 的 偏向 性 [1451]。 


12.2.4 ”镜像 


Web 上 的 镜像 (mirroring) 是 指 对 某 个 网 站 保存 部 分 或 者 全 部 副本 的 行为 。 镜 像 的 目 
的 是 为 了 分 配 服务 器 负载 ， 给 不 同 地 方 的 用 户 提供 更 快 访 问 速度 ， 减 少时 延 。 这 些 副本 通常 
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压缩 和 增 量 编码 的 方式 更 新 镜像 。 当 然 ， 也 存在 镜像 的 策略 ， 如 合适 的 更 新 周期 是 多 久 ， 通 
常 是 每 天 或 每 周 ， 再 如 一 天 中 最 佳 的 镜像 时 间 是 何 时 。 

Web 归档 (Web archiving) 是 指 保留 大 量 网 页 的 镜像 ， 即 使 是 那些 已 经 过 期 的 副本 。 
也 就 是 说 ， 每 个 网 页 的 所 有 历史 都 会 被 记录 。 最 大 的 Web 归档 项 目 是 Internet Archive 
(Internet 档 案 库 )S ， 它 的 目标 是 对 Web 上 的 所 有 公开 的 信息 进行 归档 ， 包 括 文本 和 图 片 。 
2008 年 4 月 的 Internet Archive 总 共和 包含 大 约 850 亿 个 各 种 版 本 的 网 页 ， 共 计数 百 TB 的 数 
据 。 它 的 主要 目的 是 在 网 页 被 删除 或 更 新 之 前 保留 Web 每 年 的 状态 。 


12.2.5 网 站 分 析 


Web 息 虫 可 以 用 来 分 析 网 站 ， 其 至 根据 预先 确定 的 准则 即时 改变 它 (的 行为 )。 自 动 网 
站 分 析 最 常见 的 形式 是 链接 验证 (link validation)， 即 自动 打 措 网页， 查找 指 向 不 存在 网 页 
的 “ 坏 链 ”。 男 一 个 常见 的 形式 是 代码 验证 (code validation)， 它 保证 所 有 的 网 页 、 样 式 表 
和 脚本 都 符合 各 自 所 用 语言 的 规范 。 一 个 更 具体 的 例子 是 测试 大 型 网 站 目录 ， 它 寻找 那些 已 
经 无 法 访问 的 网 站 ， 并 把 它们 列 为 目录 中 的 待 删除 项 目 。 

网 站 分 析 工 具 还 可 以 用 来 查找 网 站 的 脆弱 上 点， 包括 一 些 较 旧 的 、 未 打 补 村 的 流行 脚 
本 ， 它 们 可 以 用 来 取得 未 授权 的 服务 器 访问 。 网 站 管理 员 这 么 做 的 目的 是 加 速 和 简化 访 
问 自己 网 站 的 流程 ， 但 不 幸 的 是 ， 这 通常 也 是 不 怀 好 意 的 黑客 所 使 用 的 伎俩 。 在 大 型 文 
本 资源 库 〈 如 Wikipedia) 1, Web 疏 虫 能 用 来 自动 化 很 多 任务 ， 包 括 分 类 以 保证 所 有 同一 
集合 下 的 网 页 符合 同一 标准 ， 还 可 以 检测 未 知 版 权 状 态 的 图 片 ， 或 者 检测 狐 儿 Corphan) 
(未 链接 的 ) 页 面 。 


12.3 ERA AK RK 


ASE Bt 7a FS AY RR abs Be oe ee BE, BERF, EE th A eT Es TS 
同 。 比 如 ， 之 前 我 们 已 经 讨论 过 的 候 虫 在 如 下 几 个 方面 会 有 不 同 的 侧重 点 : 
。 新 鲜 度 (freshness): 在 某 些 场合 ， 保 证 疏 虫 得 到 的 网 页 副本 是 最 新 的 是 很 重要 的 ; 
而 在 其 他 时 候 ， 即 使 是 旧 一 点 的 网 页 副本 也 是 能 接受 的 。 
。 ME (quality): 有 些 咎 虫 的 目标 是 部 分 特定 的 高 质量 网 页 ， 而 另 一 些 对 广泛 的 覆盖 
度 更 有 兴趣 ， 尽 管 这 些 网 页 有 不 同 的 质量 水 平 。 
。 ŞE (volume): 有 些 爬 虫 对 保留 大 部 分 的 Web 网 页 有 兴趣 ， 而 另 一 些 可 能 会 牺牲 
数量 来 换取 更 高 的 质量 和 新 鲜 度 。 爬 虫 的 覆盖 度 依赖 于 该 指标 。 
根据 以 上 这 三 个 维度 对 扑 虫 进行 的 分 类 ， 如 图 12-2 所 示 。 镜 像 系 统 需要 保存 一 份 非常 
精确 而 且 完整 的 网 页 子 集 的 副本 ， 而 垂直 搜索 引擎 或 者 个 性 化 朴 虫 优先 考虑 高 质量 的 网 页 文 
档 集 ， 更 强调 内 容 部 分 。 


网 页 类 型 


从 爬虫 的 角度 来 看 ， 可 以 用 网 页 的 类 型 将 网 页 分 类 ， 它 至 少 包括 两 个 维度 : 公共 /私有 
和 和 静态/ 动态， 如 图 12-3 所 示 。 
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私有 网 页 包括 密码 保护 的 网 页 ， 如 通常 内 网 中 存在 于 防火 墙 后 的 网 页 。 如 今 ， 私 有 网 页 
还 包括 只 有 朋友 、 朋 友 的 朋友 ， 或 者 其 他 限制 用 户 组 才 可 见 的 社交 网 络 数据 。 通 常 来 说 ， 所 
有 这 些 网 页 都 是 不 可 索引 、 不 可 息 取 的 。 另 一 方面 ， 公 共 网 页 是 那些 原则 上 可 以 被 网 络 息 忠 
索引 的 部 分 。 

静态 网 页 是 那些 在 网 站 上 等 待 用 户 访问 的 网 页 。 动 态 网 页 是 那些 直到 用 户 访 问 时 才 在 
Web 服务 器 上 产生 的 网 页 ， 它 理解 用 户 的 请 求 ， 然 后 按 需 创建 网 页 并 返回 给 用 户 。 动 态 网 
页 的 一 个 例子 是 搜索 引擎 的 搜索 结果 页 面 ， 因 为 有 大 量 可 能 的 查询 ， 不 可 能 提前 生成 这 些 结 
果 页 面 。 

在 实际 中 ， 我 们 可 以 有 无 限 多 的 动态 网 页 (比如 用 软件 生成 的 日 历 )， 所 以 我 们 无 法 期 
待 息 虫 能 下 载 所 有 的 动态 网 页 。 因 此 ， 大 多 数 仆 虫 选择 一 个 最 大 深度 去 的 取 动态 链接 。 实 际 
上 ，[96] 说 明了 到 5 层 深度 就 可 以 覆盖 超过 90% 的 人 们 可 能 访问 的 网 页 。 

不 幸 的 是 ， 并 不 是 所 有 的 动态 网 页 都 可 以 通过 链接 取得 ， 仍 然 存在 许多 网 页 只 能 通过 用 
户 提交 查询 或 者 在 线 表单 交互 来 得 到 。 只 有 通过 这 种 类 型 的 交互 才能 到 达 的 网 页 叫做 暗 网 。 
尽管 有 一 些 方法 能 够 索引 它们 中 的 某 些 〈 见 12.7. 1 节 )， 但 现在 的 大 部 分 朴 虫 还 没有 索引 这 
部 分 网 页 。 


12.4 ”架构 和 实现 


正如 我 们 将 在 12. 5 TBA, ROA THEIR Rm, 但 是 它 同样 需要 一 个 

高 度 优化 的 架构 。Shkapenyuk 和 Suel[1468] 说 过 : 
尽管 组 建 一 个 每 秒 只 下 载 一 些 页 面 、 运 行 较 短 时 间 的 慢 速 爬 忠 是 相当 容易 的 ， 

但 是 组 建 一 个 能 运行 数 周 、 下 载 数 以 亿 计 网 页 的 高 性 能 系统 ， 在 系统 设计 、I/O 和 

网 络 效率 、 健 壮 性 和 可 管理 性 等 方面 都 面临 着 一 系列 的 挑战 。 

尽管 我 们 这 里 并 不 去 描述 高 端的 网 络 息 虫 ， 但 是 我 们 将 讨论 它们 的 基本 特征 ， 并 且 提 供 
是 够 多 的 细节 以 实现 一 个 低 端 但 还 算 实 用 的 候 虫 ， 我们 将 对 图 12-1 所 示 的 简单 算法 进行 扩 
展 。 在 12.8 节 ， 我 们 将 涉及 一 些 息 虫 实现 的 例子 。 


12.4.1 爬虫 架构 


网 络 疏 虫 的 典型 高 层 架构 如 图 12-4 所 示 ， 疏 虫 由 三 个 主要 模块 组 成 ,下载 器 、 存 储 器 
和 调度 器 。 调 度 器 (scheduler) 是 关键 模块 ， 它 负责 维护 一 个 待 访问 的 URL 队列 ， 也 称 为 
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“ay” (frontier) ， 用 于 以 特定 的 顺序 将 这 些 URL 发 送 给 一 个 或 者 多 个 下 载 器 (download- 
er) 。 下 载 器 负责 获取 每 个 URL 所 对 应 的 网 页 内 容 ， 并 解析 给 存储 器 (storage) 模块 以 便 后 
续 索 引 和 检索 。 另 外 ， 存 储 器 模块 也 将 获取 的 网 页 的 元 信息 提供 给 调度 器 ， 这 是 用 来 驱动 调 
度 的 重要 策略 。 





图 12-4 包含 调度 器 和 下 载 器 的 Web 有 息 虫 的 高 层 架 构 


如 果 我 们 考虑 调度 可 以 进一步 分 为 两 个 部 分 : 长 期 调度 (long-term scheduling) 和 
短期 调度 (short-term scheduling)， 那 么 这 张 图 可 以 被 细 化 ， 如 图 12-5 所 示 。 长 期 调度 
是 指 需 要 根据 估计 的 网 页 质量 和 新 鲜 度 决定 接 下 来 要 访问 的 页 面 ， 短 期 调度 是 指 为 了 
遵从 友好 策略 〈 见 12. 5. 3 节 ) 或 者 优化 网 络 使 用 必须 重新 安排 网 页 访问 顺序 。 长 期 调 
度 器 的 时 间 尺 度 一 般 是 几 小 时 或 者 几 天 ， 而 短期 调度 器 的 时 间 尺 度 是 几 秒 到 几 分 钟 ， 
这 主要 依赖 于 给 爬虫 配置 的 等 待 时 间 属 性 。 存 储 器 也 可 以 进一步 分 为 三 个 部 分 : 文本 


(或 者 是 保留 一 些 或 全 部 HTML 标签 的 格式 化 富 文 本 )、 元 数据 (metadata) 和 链接 
(link) 。 





12-5 更 具体 的 Web RREH 


为 了 达到 调度 目的 ， 聚焦 爬虫 用 文本 信息 来 对 网 页 分 类 ， 并 优先 下 载 某 些 URL。 通 用 
息 虫 使 用 元 数据 和 链接 信息 来 决定 接 下 来 要 下 载 的 网 页 。 

对 于 得 期 调度 器 来 说 ， 执 行 友好 策略 需要 维护 多 个 队列 ， 每 个 站 点 一 个 队列 ， 每 个 队列 
中 是 需要 下 载 的 网 页 列表 ， 如 图 12-6 所 示 。 在 短期 调度 器 中 ， 有 些 线程 可 能 会 变 “ 空 闲 ”， 
如 图 12-6 中 的 队列 1、3、5 和 7， 这 可 能 会 成 为 效率 不 高 的 一 个 原因 ， 我 们 将 在 12. 6 节 讨 
论 。 当 然 ， 在 我 们 所 展示 的 通用 架构 基础 上 还 存在 很 多 变化 ， 更 多 细节 见 L349, 第 2 章 ]。 
还 有 许多 实际 的 细节 问题 ， 比 如 DNS 解析 、 网 页 〉 解 析 、 文 本 重复 或 近似 重复 检测 和 
URL 规范 化 ， 我 们 现在 讨论 它们 。 
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图 12-6 短期 调度 器 的 操作 : 每 个 网 站 一 个 队列 ， 每 次 每 个 活跃 队列 
最 多 一 个 连接 〈 图 中 站 点 2、4 和 6 是 活路 的) 


12.4.2 实际 问题 


除了 带宽 和 存储 能 力 外 ， 扑 上 忠 的 实现 还 涉及 许多 实际 问题 。 大 部 分 问题 的 出 现 都 是 因为 
爬虫 需要 与 许多 不 同 的 系统 交互 ， 不 同 的 系统 会 不 同 程度 地 符合 标准 和 服务 质量 要 求 。 

网 络 息 取 最 大 的 挑战 之 一 是 如 何 从 多 个 来 源 下 载 网 页 ， 辣 时 保证 整体 的 输入 流量 尽 可 能 
均匀 分 布 。 但 现实 中 DNS 和 Web 服务 器 的 响应 时 间 变 化 很 大 ， 使 得 这 个 问题 变 得 更 加 复 
杂 。 而 且 ，Web 服务 器 的 服务 时 间 并 不 能 随便 假设 ,我 们 经 常会 看 到 Web 服务 器 宕 机 很 长 
时 间 ， 甚 至 几 天 或 几 周 ， 然 后 又 重新 出 现 。 

Henzinger 等 人 [747] 认为 从 网 络 爬 虫 的 角度 来 看 ， 最 重要 的 挑战 是 垃 报 网 页 和 重复 
内 容 。 最 近 ，PattersonL1246] 等 人 向 Web 搜索 引擎 开发 人 员 推 荐 了 一 系列 文章 ， 解 释 了 为 
什么 Web 搜索 问题 通常 是 比较 困难 的 。 最 困难 的 两 个 问题 是 实现 不 符合 标准 ， 和 高 度 普遍 
的 重复 内 容 。 我 们 在 这 里 将 讨论 每 个 问题 ,， 但 在 这 之 前 ,我 们 先 讨论 不 同类 型 的 网 页 、 
URL 规范 化 和 《网 页 ) 解析 。 

1. DNS 解析 

[301] 是 最 早 的 关于 网 络 息 取 研 究 之 一 ， 该 作者 挑选 DNS MARS) 作为 问题 的 主 
要 源头 之 一 。 根 据 我 们 的 经 验 ， 它 包括 临时 DNS 失效 、 不 良 或 者 错误 的 DNS 记录 ， 还 有 
DNS 解析 的 效率 因素 。 

因为 候 虫 可 能 会 使 本 地 DNS 满 负 荷 ， 所 以 大 多 数 仆 虫 会 进行 DNS 缓存 。 也 就 是 说 ， 它 
们 保存 那些 需要 更 频繁 解析 的 域名 所 对 应 的 IP 地 址 。 这 种 缓存 即使 在 没有 满 负 荷 的 时 候 也 
是 重要 的 ， 因 为 从 缓存 中 解析 一 个 域名 要 比 用 标准 的 DNS 解析 效率 高 得 多 。 

2. URL 规范 化 

Web 包含 大 量 指向 相同 内 容 的 URL。 一 个 典型 的 重复 URL 集合 可 能 包含 如 下 的 字符 串 ， 
http: //x. example. com/ 、 http://example. com/x/, http://example. com/x/index. html 和 http:// 
example. com/x?sessionid 二 00000000， 这 些 链 接 都 指向 同样 的 内 容 。 尽 管 这 些 网 页 在 下 载 
之 后 可 以 通过 某 些 方法 (如 shingling[L278J)〉 检 测 出 是 否 重复 或 者 近似 重复 ,但 是 通过 对 
URL 使 用 一 些 简单 的 句法 规则 ， 原 则 上 有 可 能 避免 下 载 这 些 重 复 网 页 。 

然而 ， 大 多 数 检测 包含 相似 内 容 的 URL 的 规则 并 不 通用 ， 许 多 是 针对 特定 服务 器 的 手 
动 结果 [1442]。 疏 虫 通常 使 用 匹配 流行 网 站 的 手写 规则 ， 比 如 ， 移 除 默 认 的 文件 名 《如 


第 12 章 WebRMR + 383 


index. html) 和 移 除 典型 的 会 话 标识 参数 (倾向 于 基于 cookie 的 会 话 ) 。 

可 以 使 用 自动 过 程 来 发 现 针对 某 个 特定 网 站 的 规范 化 规则 。 在 这 个 过 程 中 ， 通 过 找到 许 
多 拥有 相似 内 容 的 URL 对 ， 可 以 发 现 候选 规则 ， 然 后 使 用 一 系列 启发 式 的 方法 [1442] 过 
滤 这 些 候 选 〈 规 则 ) 。 

3. (FOR) 解析 

Web 上 的 很 多 网 页 的 HTML 代码 比较 差 ， 并 没有 遵照 HTML 语言 规范 。 其 中 一 个 原 
因 是 大 多 数 Web 浏览 器 有 较 高 的 容忍 度 ， 希 望 展示 尽 可 能 多 的 网 页 而 不 打 断 用 户 的 体验 。 
举例 来 说 ， 如 果 一 个 网 页 的 HTML 代码 有 个 错误 ， 那么 显示 一 个 错误 窗口 会 十 分 恼人 ， 因 
为 用 户 对 此 无 法 做 什么 。 因 此 ， 相 反 地 ， 即 使 HTML 代码 是 错误 的 ， 浏 览 器 无 论 如 何 都 会 
演 染 HTML, 

严格 解析 HTML 几乎 永远 不 可 能 ， 故 虫 解析 器 模块 必须 允许 HTML 编码 中 有 错误 ， 
即便 是 不 明显 的 错误 。 同 样 道 理 ， 尝 试 给 网 页 创建 文档 对 象 模 型 (Document Object Model, 
DOM) 树 在 大 多 数 情况 下 需要 对 网 页 预 处 理 来 改正 编码 错误 〈 更 多 关于 DOM 的 信息 见 
6.4.3 节 )。 

在 解析 过 程 中 ， 信 息 抽 取 是 十 分 重要 的 。 这 个 过 程 可 以 是 从 标题 和 头 部 等 简单 的 HTML 
标签 抽取 ， 也 可 以 是 复杂 的 自然 语言 处 理 。 对 于 后 者 ， 主 要 过 程 之 一 是 实体 抽取 。 实 体 可 以 
是 名 字 〈 如 人 或 机 构 ) 、 日 期 及 其 他 时 间 实 体 、 地 理 位 置 〈 对 本 地 搜索 十 分 重要 )。 在 这 个 阶 
段 ， 我 们 也 可 以 抽取 属性 - 值 对 ， 特 别 是 与 结构 化 信息 相关 的 。 例 如 ， 在 电子 商务 网 站 中 ， 
我 们 可 以 获得 带 有 相关 元 数据 〈 如 价格 、 年 份 等 ) 的 产品 信息 。 在 这 个 主题 上 有 很 多 的 研 
ae, WL [955, 694, 784] 的 例子 。 

4. 软 404 页 面 

在 忠于 Web 标准 方面 ，HTTP 的 实现 各 有 不 同 。 在 很 多 情况 下 ， 对 疏 虫 来 说 最 具 破 坏 
性 的 问题 是 很 难 辨 别 一 个 URL 是 否 存 在 。 对 于 很 多 网 站 来 说 ， 如 果 让 虫 尝试 下 载 一 个 不 存 
在 的 网 页 ， 那 么 服务 器 会 返回 一 个 指向 某 个 自 定 义 的 错误 页 面 的 重 定 向 ， 并 不 会 返回 标志 错 
误 条 件 的 响应 头 (response head), Bar-Yosef 等 人 [1754] 将 这 些 页 面 叫 做 “ 软 404” 页 
面 ， 并 观察 到 大 约 29% 的 死 链 指向 它们 。 这 个 名 字 来 自 HTTP 规范 ， 其 中 网 页 不 存在 的 错 
误 编 号 是 404。 

“ 软 404” 页 面 对 搜索 引擎 的 爬虫 是 有 害 的 ， 因 为 它们 最 终 可 能 会 被 索引 ， 并 且 它 们 通 
常 不 含有 有 用 的 内 容 。 为 了 缓和 这 个 问题 的 影响 ， 有 些 疏 虫 先 通过 访问 一 些 随机 生成 、 几 乎 
不 可 能 存在 的 URL 来 测试 该 网 站 ， 然 后 验证 它们 是 否 得 到 正确 的 返回 代码 。 如 果 网 站 没有 
返回 “页 面 未 找到 ”的 错误 ， 那 么 它们 将 以 另外 一 种 方式 对 待 该 Web 服务 器 上 的 网 页 。 而 
且 ， 软 404 页 面 可 以 通过 文本 分 类 器 自动 地 识别 出 来 ， 其 中 文本 分 类 器 通过 学 习 与 这 些 网 页 
的 内 容 相关 的 一 些 短语 或 关键 词 得 到 。 

5. BS 

Web 上 的 镜像 内 容 十 分 多 。1997 42, Border 等 人 [278] 使 用 网 页 查 重 算法 shingling 
CH 6. 5. 3 节 ) 估计 出 : 1/3 的 网 页 和 另外 某 个 网 页 几乎 完全 一 致 。 其 他 人 也 有 同样 的 观察 
结果 ， 如 30% 的 网 页 是 完全 重复 的 [379]，29 站 的 网 页 是 近似 重复 的 ， 还 有 22% 的 网 页 是 
完全 一 致 的 [559]。 这 些 重复 中 的 某 一 些 是 有 意 的 ， 对 应 于 其 他 网 页 的 镜像 ;而 另 一 些 重复 
是 无 意 的 ， 仅 是 由 网 站 建设 的 方式 造成 的 。 实 际 上 ， 最 近 关 于 Web 演化 的 研究 表明 这 部 分 
的 比例 可 能 更 高 [120]. 

无 意 的 重复 Cunintentional duplicates) 有 多 个 原因 ， 主 要 的 原因 是 艇 入 在 URL 中 的 、 
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用 于 跟踪 用 户 行为 的 标识 《如 /dir/page. html; jsessid=09A89732),. X Ei RH T RW 
辑 会 话 。 从 扑 虫 的 角度 来 看 ， 这 些 会 话 标 识 是 重复 的 重要 来 源 ， 因 为 候 忠 无 法 区 分 两 个 
具有 相同 语义 内 容 的 网 页 。 尽 管 如 此 ， 息 上 忠 必 须 注意 会 话 标识 ， 并且 在 多 个 访问 请 求 之 
间 尽 量 都 能 保持 会 话 标识 一 致 。 正 如 [531] 所 说 的 : “除非 把 这 个 先 验 知识 告诉 朴 虫 ， 
否则 仅仅 在 这 一 个 网 站 上 ， 爬 虫 就 基本 上 能 够 找到 无 穷 多 的 URL KER”. Bl ike He E 
复 网 页 可 以 通过 查看 其 内 容 检 测 出 来 ， 但 在 理想 情况 下 疏 虫 应 该 避免 下 载 它 们 ， 以 免 浪 
费 网 络 资源 。 

一 个 相关 的 问题 是 Web 上 信息 的 颗粒 度 (granularity)。 博 客 、 论 坛 和 邮件 列表 存档 都 
是 典型 的 大 型 资源 库 ， 它 们 由 个 人 用 户 的 很 多 小 帖子 组 成 。 当 主题 在 其 他 地 方 并 未 涉及 时 ， 
它们 是 很 好 的 信息 源 。 典 型 的 例子 是 技术 支持 消息 ， 它 们 通常 简短 地 描述 十 分 具体 问题 的 解 
决 方案 。 然 而 ， 有 时 候 个 人 帖子 没有 其 他 网 页 有 价值 ， 因 为 其 长 度 十 分 短 。 一 个 单独 的 帖子 
只 包含 少量 的 信息 ， 但 是 整个 对 话 可 能 很 有 价值 。 朴 虫 可 能 会 参考 网 站 建设 的 方式 来 只 索引 
那些 聚合 信息 的 网 页 〈 对 话 线索 ) ， 而 避免 索引 每 一 个 单独 的 帖子 。 


12.4.3 HITER 


Ay #4 Bl GF OS REA A SRE. MAERED ee Bs RE AAR, 
它 应 该 是 分 布 式 的 。 

在 仆 取 时 有 必要 采取 多 线程 的 方式 ， 因 为 息 虫 可 用 的 带宽 通常 会 比 单个 网 站 的 带宽 要 大 
得 多 。 多 线程 意味 着 胞 虫 请 求 下 一 个 网 页 之 前 不 需要 等 待 某 个 十 载 线 程 结束 。 

当 在 分 布 式 的 环境 中 运行 仆 虫 时 ， 最 重要 的 问题 是 避免 多 次 下 载 同样 一 个 网 页 ， 或 者 过 
载 Web 服务 器 。 进 程 之 间 通 过 交换 URL 来 协调 运行 ， RiP RAM ARR GEE 
ED 通信 开销 。 理 想 情况 下 ， 每 个 网 页 应 该 只 由 单个 进程 下 载 。 

一 个 完全 分 布 式 的 息 取 系统 需要 某 个 策略 来 分 配 新 发 现 的 URL， 因 为 发 现 新 URL 的 进 
程 不 一 定 是 下 载 它 的 进程 。 由 哪个 进程 来 下 载 给 定 URL HP a BR (assignment func- 
tion) 决定 的 ， 所 有 的 进程 从 一 开始 就 知道 这 个 函数 。 已 知 大 多 数 链 接 都 指向 同一 网 站 上 的 
网 页 ， 所 以 这 个 分 配 函 数 应 该 把 整个 主机 Cost) 分 配给 同一 个 进程 。 散 列 函 数 可 以 用 来 将 
主机 名 转换 为 数字 ， 这 个 数字 对 应 于 相应 卜 取 进程 的 索引 。 

Boldi 等 人 [219] 说 道 ， 有 效 的 分 配 函 数 必须 有 三 个 主要 属性 ， 每 个 息 取 进程 应 该 得 到 
大 致 相同 数量 的 主机 (平衡 属性 ); 如 果 有 怜 取 进 程 的 数量 增加 了 ， 那 么 分 配给 每 个 进程 的 主 
机 数量 必须 减少 〈 逆 变 属 性 ); 分 配 函 数 必 须 能 够 动态 地 增加 或 者 移 除 爬 取 进程 。 他 们 提议 
使 用 一 致 性 散 列 (consistent hashing)， 它 复制 散 列 桶 Chashing bucket)， 所 以 增加 或 移 除 
一 个 桶 不 需要 重新 散 列 整个 表 来 获取 所 有 需要 的 属性 。 有 了 这 个 属性 ， 新 的 进程 可 以 进入 故 
取 系 统 ， 而 不 必 重 新 散 列 所 有 主机 。 应 用 这 样 的 分 配 函 数 ， 没 有 页 面 会 被 爬 取 两 次 ， 除 非 某 
个 爬 取 进程 震 掉 了 。 在 那样 的 情况 下 ， 另 一 个 进程 必须 重新 爬 取 来 自 失 败 代 理 〈failing 
agent) 的 网 页 。 爬 虫 UbiCrawlerL219] (Java 语言 ) 实现 了 这 些 想法 。 

最 后 ， 有 一 些 启发 式 的 方法 来 减少 由 于 交换 URL ERKA FH. EPH E Z i Ht E 
H URL (每 次 多 个 URL) 十 分 重要 。 如 果 所 有 进程 在 爬 取 之 前 就 知道 文档 集中 大 部 分 被 引 
用 的 URL (如 使 用 上 一 次 候 取 的 数据 》»， 那 么 它 能 帮助 减少 进程 间 通 信 [375]。 


12.5 调度 算法 
Web 息 虫 需要 同时 平衡 各 种 各 样 的 对 象 ， 其 中 一 些 对 象 还 会 互相 矛盾 。_ 般 来 说 ， 
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Web 爬虫 需要 网 页 的 新 鲜 拷 贝 ， 所 以 它 必 须 重新 访问 网 页 来 探测 变化 。 同 时 ， 它 又 必须 发 
现 新 网 页 。 它 必须 高 效 地 利用 网 络 带宽 ， 如 下 载 “ 好 ”的 网 页 以 避免 浪费 资源 。 然 而 ， 有 爬虫 
并 不 能 提前 知道 哪些 网 页 是 “好 ”的 ， 它 必须 先 下 载 它们 。 

更 麻烦 的 是 ，Web 是 动态 的 ， 也 就 是 说 ， 每 天 都 有 大 量 的 网 页 增加 、 更 改 或 删除 。 较 
高 的 变化 率 说 明 ， 当 疏 虫 刚 从 数据 集中 下 载 完 最 后 几 个 网 页 时 ， 很 有 可 能 新 的 网 页 已 经 出 现 
了 ; 或 者 已 经 下 载 的 网 页 已 经 被 更 新 ， 甚 至 删除 了 。 

某 种 程度 上 ， 门 取 网 页 与 在 晴朗 的 夜晚 看 天 空 类 似 : 我 们 所 看 到 的 星星 的 位 置 反映 不 同 
时 间 星 星 的 状态 ， 因 为 光 传播 了 不 同 的 距离 才 到 达 我 们 。 爬 虫 所 得 到 的 并 不 是 Web 的 真正 
快照 ， 因 为 在 任何 确定 的 瞬间 ， 腿 虫 所 收集 到 的 网 页 集 并 不 代表 当前 的 这 个 Web. BEIE 
取 的 网 页 可 能 是 十 分 准确 的 ， 但 是 早 些 时 候 爬 取 的 网 页 很 有 可 能 已 经 过 时 了 。 这 个 比喻 如 
图 12-7 所 示 。 


思维 网 


一 数 天 、 数 星期 或 数 月 





A 
从 搜索 引擎 的 视角 


用 户 
图 12-7 从 搜索 引擎 视角 ，Web 代表 着 不 同时 间 的 网 页 状态 


最 简单 的 息 取 调度 算法 是 以 宽度 优先 的 策略 遍历 网 站 。 以 这 样 的 方式 ， 我 们 不 仅 能 够 提 
高 网 站 的 覆盖 率 ， 而 且 不 会 连续 访问 一 个 网 站 的 许多 网 页 ， 有 助 于 遵守 友好 策略 。 然 而 这 还 
不 够 ， 对 于 一 个 在 大 数据 集 上 运行 的 Web EHR, MERMR HRA EHER, Wea 
的 是 将 爬虫 的 行为 看 做 一 系列 独立 策略 的 组 合 。 例 如 疏 取 算法 可 以 看 成 下 面 三 个 不 同 策略 的 
组 合 ， 每 个 算法 都 有 各 自 不 同 的 目标 : 

。 选择 策略 : 其 目标 是 优先 访问 质量 最 好 的 网 页 。 

。 重 访问 策略 : 其 目标 是 当 网 页 改变 时 更 新 索引 。 

。 友好 策略 : 其 目标 是 避免 过 载 网 站 。 


12.5.1 选择 策略 

在 现 有 的 Web 规模 下 ， 即 使 是 大 型 搜索 引擎 也 只 能 覆盖 公开 可 访问 内 容 中 的 一 部 分 。 
Lawrence 和 Giles[989] 在 2000 年 的 一 项 早期 研究 表明 ， 在 当时 没有 任何 搜索 引擎 能 够 索 
引 超 过 16% 的 网 页 。 一 份 更 近 的 2005 年 的 报告 [685] 表明 ， 大 型 搜索 引擎 的 网 页 覆盖 
率 在 58% 一 76%% 。 因 为 朴 虫 总 是 只 下 载 网 页 的 一 部 分 ， 所 以 很 希望 下 载 的 那 部 分 网 页 包 
含 了 最 具 权 威 性 的 网 页 ， 而 不 只 是 Web 的 随机 采样 。 正 如 Edwards 等 人 [525] 提 到 的 : 
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由 于 用 于 处 取 的 带宽 既 不 是 无 限 的 ， 也 不 是 免费 的 ， 所 以 如 果 为 了 保持 合理 的 
质量 和 新 鲜 度 指标 ， 让 取 网 页 的 方式 必须 不 仅 具 备 可 扩展 性 ， 而 且 还 要 是 高 效 的 。 

朴 虫 必须 在 每 一 步 都 小 心地 选择 接 下 来 要 访问 的 网 页 。 例 如 ， 回 到 2004 年 ， 与 一 次 
大 规模 Web 爬 取 相关 的 带宽 花费 估计 达到 惊人 的 150 万 美元 [438j。 尽 管 当 前 的 带宽 花 
费 往往 更 少 ， 但 是 整个 Web 变 得 越 来 越 大 。 也 就 是 说 ,一 次 完整 的 大 型 息 取 将 仍然 花费 
很 大 ， 这 说 明 高 效 使 用 网 络 资源 来 最 大 化 门 虫 吞吐 量 以 及 避免 浪费 已 分 配 的 带宽 是 十 分 
重要 的 。 

选择 哪些 网 页 来 息 取 可 以 分 为 如 下 两 种 类 型 ， 离 线 限制 (off-line limit)， 它 是 预先 设置 
的 ; 在 线 选择 (on-line selection)， 它 是 在 让 上 忠 运 行 时 计算 的 。 后 者 包括 聚焦 息 虫 ， 它 的 选 
择 标准 是 候 取 与 某 个 特定 主题 相关 的 网 页 。 

1. 离线 限制 

在 实际 中 ， 由 于 存储 的 限制 ， 经 常 需要 为 息 取 进程 预先 设立 限制 ， 这 些 限制 可 以 是 整体 
上 的 最 大 扑 取 数量 。 然 而 ， 由 于 网 站 和 主机 之 间 的 突 律 分 布 ( 见 11. 3. 3 节 )， 因 此 以 每 个 主 
机 或 域 的 形式 表示 这 些 限制 更 有 用 。 

较 多 使 用 的 网 络 息 虫 离线 限制 如 下 : 

。 和 候 取 的 最 大 主机 数量 。 这 对 于 大 的 域 之 下 的 垂直 扑 取 特别 有 趣 。 

。 最 大 深度 。 例 如 从 任何 主页 或 者 起 始 网 页 集 开 始 遍 历 的 最 大 链接 数 。 

。 数据 集中 所 有 网 页 的 最 大 数量 。 它 依赖 于 存储 数据 的 可 用 空间 。 

。 每 个 主机 或 域 的 限制 ， 包 括 最 大 网 页 数 或 者 从 每 个 服务 器 下 载 的 最 大 字 节 数 。 

。 接受 的 MIME 类 型 列表 (如 text/html 和 text/plain). 

同时 ， 每 个 网 页 的 限制 可 能 包括 网 页 大 小 的 最 大 值 、 只 索引 某 些 网 页 的 开始 几 个 词语 ， 
以 及 限制 每 个 网 页 所 要 处 理 的 最 大 外 链 数 。 

2. 在 线 选 择 

在 线 选 择 要 息 取 的 网 页 需要 有 网 页 重要 性 的 指标 ， 使 得 网 页 有 优先 度 。 一 个 网 页 的 重要 
性 可 以 是 它 的 内 在 质量 、 体 现 为 链接 或 访问 数 的 流行 度 ， 甚 至 其 URL 的 函数 (后 者 如 垂直 
搜索 引擎 限制 疏 取 某 个 顶层 域 ， 或 者 搜索 引擎 限定 于 某 些 网 站 )。 设 计 一 个 好 的 选择 策略 有 
其 他 一 些 难点 ， 它 必须 处 理 部 分 信息 ， 因 为 在 咎 取 时 疏 虫 并 不 知道 完整 的 网 页 集合 。 

Cho 等 人 [378] 最 先进 行 了 关于 疏 取 调度 策略 方面 的 研究 。 他 们 的 数据 集 是 在 stan- 
ford. edu 域 的 18 万 个 网 页 ， 在 这 上 面 他 们 测试 了 不 同 策略 的 模拟 爬 取 。 测 试 的 排序 指标 有 
广度 优先 、 反 向 链接 计数 和 文章 随后 定义 的 局 部 PageRank。 测 试 得 出 的 结论 之 一 是 ， 如 果 
fe FEN RAT TFR PageRank 值 大 的 网 页 ， 那 么 局 部 PageRank 的 策略 更 好 ， 其 次 是 广 
度 优 先 和 反 向 链接 计数 。 

Najork 和 WienerL1169] 使 用 广度 优先 的 策略 在 不 同 域 的 3. 28 亿 个 网 页 上 进行 真实 的 
fe. HET RB BRC RSH PageRank 值 较 大 的 网 页 (但 他 们 并 没有 与 其 他 
策略 比较 )。 对 此 结果 ， 作 者 给 出 的 解释 是 ， 最 重要 的 网 页 有 来 自 众 多 主机 的 许多 链接 指向 
人 他们， 而且 这 些 链接 会 被 很 早 发 现 ， 无 论 息 取 最 先是 从 哪个 主机 或 者 网 页 开始 的 。 

Abiteboul 等 人 [6] 基于 在 线 页 面 重要 度 计算 (On-line Page Importance Computation, 
OPIC)〉 算 法 设计 了 一 个 息 取 策略 。 在 OPIC 算法 中 ， 每 个 网 页 都 被 赋予 了 一 个 初始 数目 的 
“现金 ”， 它 被 平均 分 配给 该 网 页 指向 的 页 面 。 这 类 似 于 PageRank 计算 方法 ， 但 是 它 更 快 ， 
而 且 只 做 一 步 。 基 于 OPIC 的 爬虫 优先 下 载 那些 在 朴 取 前 沿 中 有 较 多 “现金 ”的 网 页 。 实 验 
在 一 张 具 有 10 万 个 网 页 、 和 信 链 服从 短 律 分 布 的 合成 图 上 进行 。 结 果 显 示 ， 作 为 指导 息 忠 的 
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指标 ，OPIC 方法 比 简单 的 人 链 计 数 方法 要 好 。 

Boldi 等 人 [220] 在 来 自 .it 域 的 4000 万 个 网 页 和 WebBase 的 1 亿 个 网 页 上 进行 模拟 让 
取 ， 测 试 广度 优先 策略 与 随机 排序 策略 和 全 知 策略 。 最 后 获胜 的 是 广度 优先 策略 ， 尽 管 随机 
排序 策略 也 表现 得 非常 好 。 出 现 的 问题 是 WebBase 上 的 扑 取 偏向 用 于 收集 数据 的 候 虫 。 他 
们 也 发 现 ， 在 Web 的 部 分 子 图 上 计算 PageRank 是 真实 PageRank 值 的 一 种 较 差 的 估计 ， 而 
且 如 果 这 些 部 分 的 计算 应 用 到 把 取 策略 上 时 ， 好 的 网 页 更 不 容易 出 现 。 

Baeza-Yates 等 人 [100] Æ Web 的 两 个 子 集 上 进行 模拟 ,分 别 是 来 自 .gr 和 .cl MAY 300 
万 个 网 页 ， 测试 了 不 同 的 仆 取 策略 。 他 们 发 现 OPIC 策略 和 一 种 使 用 每 个 网 站 的 URL 队列 
长 度 的 策略 均 比 广度 优先 策略 要 好 。 而 且 ， 即 便当 Web 快速 变化 时 ， 使 用 上 一 次 仆 取 收集 
的 信息 来 指导 本 次 候 取 也 是 十 分 有 效 的 。 

3. RRM 

在 线 选择 策略 的 一 个 特定 例子 是 根据 给 定 的 主题 过 滤 网 页 。 主 题 描述 通常 由 驱动 查询 组 
成 ， 有 时 候 也 可 以 是 一 个 样 例文 档 集 合 。 如 果 给 聚焦 息 虫 提供 了 样 例文 档 ， 那 么 这 些 文档 同 
样 可 以 用 做 启动 个 虫 的 种 子 网 页 。 聚 焦 爬 虫 与 通用 疏 虫 以 同样 的 方式 运作 ， 但 不 是 把 所 有 未 
见 过 的 URL 都 加 到 队列 中 ， 而 是 只 加 入 那些 可 能 与 提供 的 主题 相关 的 网 页 。 与 主题 的 相关 
程度 可 以 由 所 有 可 用 的 信息 推断 出 来 ， 包 括 驱 动 查询 、 样 例文 档 和 到 目前 为 止 聚 焦 卜 虫 见 过 
的 网 页 。 

BE MCR AA Web 上 的 主题 局 部 性 (topical locality)。 这 意味 着 相互 链接 的 网 页 比 随 
机 选择 的 网 页 更 有 可 能 属于 同样 的 主题 [477，1119]。 特 别 地 ， 相 关 的 网 页 往往 被 共同 引 
用 ， 也 就 是 说 如 果 网 页 A 链接 网 页 B 和 C， 而 且 网 页 B 与 网 页 A 的 主题 相关 ， 那么 很 有 可 
能 网 页 C 也 与 同样 的 主题 相关 。 随 着 更 多 的 网 页 被 肘 取 ， 垂 直 爬 虫 的 专注 度 会 提高 ， 利 用 
这 个 有 趣 的 反馈 效果 ， 可 以 很 高 效 地 识别 并 忽略 噪声 网 页 。 

聚焦 朴 取 所 要 解决 的 主要 问题 是 ， 从 带宽 利用 率 的 角度 来 看 ， 在 实际 下 载 网 页 之 前 就 预 
测 给 定 网 页 文本 与 查询 间 的 相似 度 会 更 高 效 。 一 个 可 能 的 预测 器 是 链接 的 锚 文 本 ， 这 正 是 
Pinkerton[1266] 所 采用 的 方法 。Diligenti 等 人 [497] 提出 了 一 个 基于 “上 下 文 图 ”的 方 
法 ， 其 中 那些 导向 相似 网 页 的 网 页 的 全 部 内 容 可 用 于 推测 目前 还 未 访问 过 的 网 页 的 相关 度 。 

聚焦 疏 取 的 性 能 极 大 地 依赖 于 搜索 的 特定 主题 或 类 别 的 链接 丰富 程度 。 例 如 ， 学 术 网 页 
往往 比 对 应 的 商业 网 站 包含 更 多 更 好 的 链接 [1576]。 这 是 因为 商业 网 站 几乎 不 会 链接 竞争 
对 手 的 网 站 。 





12.5.2 重 访 问 策略 


Web 具有 动态 的 天 性 ， 疏 取 Web 的 一 部 分 可 能 会 花费 很 长 时 间 ， 通 常 需 要 数 周 或 数 个 
月 。 在 朴 虫 完成 肘 取 工作 时 ， 许 多 事件 可 能 已 经 发 生 了 。 我 们 把 这 些 事件 描述 为 创建 、 更 新 
和 删除 [98]: 

。 创建 : 当 创 建 一 个 页 面 时 ， 它 并 不 是 立即 在 公共 Web 上 可 见 ， 因 为 没有 链接 指 

向 它 。 所 以 ， 至 少 需要 某 个 网 页 更 新 后 ， 增 加 一 个 链接 指向 那个 新 网 页 ， 新 网 
页 才 可 访问 ， 故 而 可 见 。 一 旦 网 页 变 成 可 见 ， 它 就 可 以 根据 重 访问 策略 被 候 
waj. 

。 更 新 : 网 页 变化 很 难 描述 ， 但 基本 上 ， 更 新 要 人 么 是 小 的 ， 要 么 是 大 的 。 如 果 更 新 发 

生 在 段落 或 者 句子 级 别 ， 那 么 我 们 说 它 是 小 的 ， 所 以 网 页 在 语义 上 几乎 还 是 一 样 的 ， 
指向 该 内 容 的 引用 也 仍然 有 效 。 相 反 ， 如 果 更 新 比较 大 ， 那 么 所 有 指向 该 内 容 的 引 
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用 就 失效 了 。 如 何 描述 部 分 变化 在 (1031, 1215] 中 有 研究 。 
MR: 如 果 一 个 网 页 无 法 再 被 访问 ， 那 么 可 以 称 之 为 被 删除 了 。 需 要 注意 的 是 ， 即 
使 所 有 指向 某 个 网 页 的 链接 都 被 删除 了 ， 并 且 网 页 在 Web 上 也 不 再 可 见 ， 但 Web 
息 虫 仍然 能 够 访问 该 网 页 ， 只 要 知道 网 页 的 确切 URL。 但 几乎 不 可 能 去 检测 一 个 网 
页 是 否 丢 失 了 所 有 指向 它 的 链接 ， 因 为 息 忠 无 法 判断 指向 该 网 页 的 链接 是 否 都 存在 ， 
或 者 这 些 链 接 只 存在 于 还 未 被 仆 取 的 网 页 。 未 检测 出 的 网 页 删除 对 搜索 引擎 的 名 誉 
损害 比 更 新 要 严重 ， 因 为 他 们 对 用 户 来 说 更 明显 。Lawrence 和 Giles 关于 搜索 引擎 
性 能 的 研究 [989] 报告 , 平均 5. 3% 的 搜索 引擎 返回 的 链接 所 指向 的 网 页 已 经 被 删 
除了 。 在 搜索 引擎 服务 器 保存 的 本 地 缓存 缓和 了 这 个 问题 。 
1. 与 网 页 事件 相关 的 代价 函数 
从 搜索 引擎 的 角度 来 看 ， 未 能 检测 出 一 个 事件 就 需要 付出 代价 ， 因 此 有 过 时 的 网 页 拷 
M. REAR BRERA RAE (Cage) [374]， 我 们 现在 讨论 它们 。 
新 鲜 度 是 一 个 二 进 制 的 指标 ， 表 示 本 地 的 网 页 拷贝 是 否 是 最 新 的 。 
资源 库 中 网 页 p 在 时 刻 t 时 的 新 鲜 度 定义 如 下 : 
Fw = |。 如 果 p 和 时 刻 t HAWS + E (12-1) 
0 否则 
Ff dee FL at. Ap PER Ae 的 年 龄 定义 如 下 : 
Ac 一 |， © RRP ARK REARS 2-2) 
t— tus update 否则 


新 鲜 度 和 年 龄 随 着 时 间 的 变化 趋势 如 图 12-8 所 示 。 


新 鲜 度 
F(t) 


时 间 / 


年 龄 
A, 


时 间 / 





12-8 ”新 鲜 度 和 年 龄 随时 间 的 变化 [374]。 两 种 事件 可 能 发 生 : 修改 服 
务 器 上 的 网 页 (修改 事件 ) 和 了 息 虫 下 载 修 改 后 的 网 页 (同步 事件 ) 


保持 资源 库 新 鲜 的 问题 ， 从 排队 论 角度 可 以 建 模 成 一 个 多 队列 、 单 服务 器 的 排队 系统 
[404]j。 用 排队 论 中 的 术语 来 说 ， 爬 虫 就 是 服务 器 ， 每 个 网 站 是 一 队 等 待 服务 的 客户 。 网 页 
修改 和 客户 到 达 每 个 队列 类 似 。 在 这 样 的 模型 下 ， 客 户 的 平均 等 待 时 间 是 需要 最 小 化 的 变 
量 。 这 个 变量 与 息 虫 对 所 疏 取 网 页 的 平均 年 龄 设置 有 关 。 
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另 一 个 不 同 的 方法 是 ， 如 Wolf SA [1712] 所 建议 的 ， 考 虑 给 最 终 用 户 提供 的 服务 质 
量 。 对 于 息 虫 来 说 ， 作 者 提出 了 一 个 顽 砍 度 (embarrassment) 指标 ， 它 对 应 于 一 个 过 时 的 
网 页 被 查找 结果 的 用 户 点 击 的 概率 。 因 此 ， 为 了 决定 更 新 哪些 网 页 ， 息 虫 需要 从 搜索 引擎 的 
查询 日 志 中 抽取 相关 信息 。 
2. 策略 
疏 虫 的 目标 可 以 是 保持 本 地 文档 集中 网 页 的 平均 新 鲜 度 越 高 越 好 ， 或 者 保持 文档 集中 网 
页 的 平均 年 龄 越 低 越 好 。 这 两 个 目标 不 是 等 价 的 。 前 者 ， 有 爬虫 仅仅 关心 有 多 少 网 页 是 过 时 
的 ; 后 者 ， 爬 虫 关心 网 页 的 本 地 拷贝 有 多 旧 。 
Cho 和 Garcia-Molina[376] 提出 了 一 个 模型 ， 模 型 中 所 有 的 网 页 从 质量 角度 来 说 都 是 
同等 重要 的 ， 他 们 考察 了 两 种 重 访问 策略 : 均匀 的 Cuniform) 和 按 比例 的 (proportional). 
均匀 策略 是 以 同样 的 频率 重 访问 文档 集中 的 所 有 网 页 ， 不 管 它们 变化 的 速率 如 何 。 按 比例 策 
略 更 经 常 地 重 访问 那些 变化 较 频 繁 的 网 页 ， 在 这 样 的 情况 下 ， 访问 频 率直 接 与 网 页 的 估计 变 
化 频率 成 比例 。 
在 这 两 种 情况 下 ， 网 页 的 重复 息 取 能 够 以 随机 或 者 固定 顺序 的 方式 进行 。Cho 和 Garci- 
a-Molina 证 明了 一 个 惊人 的 结果 ， 在 平均 新 鲜 度 方面 ， 均 匀 策 略 无 论 在 模拟 的 Web LEA 
实 的 Web 息 取 上 表现 得 均 更 好 。 这 个 结果 的 解释 是 ， 当 一 个 网 页 变化 过 于 频繁 时 ， 息 虫 将 
浪费 时 间 在 快速 重新 您 取 上 ， 却 仍然 无 法 保持 网 页 拷贝 的 新 鲜 度 :“ 为 了 提高 新 鲜 度 ,我们 
应 该 惩罚 那些 太 频 繁 改变 的 网 页 。”[376j] 
无 论 均匀 策略 还 是 按 比例 策略 都 不 是 最 优 的 。 保 持 较 高 平均 新 鲜 度 的 最 优 方法 包括 忽略 
变化 过 于 频繁 的 网 页 ， 保 持 较 低 平 均 年 龄 的 最 优 方法 是 随 着 每 个 网 页 的 变化 频率 ， 单 调 〈 且 
次 线性 ) 递增 爬虫 的 访问 频率 。 在 这 两 种 情况 下 ， 均 匀 策 略 要 比 按 比例 策略 更 接近 最 优 方 
法 。 正 如 Coffman 等 人 [404] 所 说 的 : “为 了 最 小 化 期 望 的 过 时 时 间 ， 对 任何 特定 网 页 的 
访问 要 尽 可 能 平均 。” 
显 式 的 重 访问 策略 公式 通常 来 说 无 法 得 到 ， 因 为 它们 依赖 于 网 页 变化 频率) 的 分 布 。 
如 果 这 个 分 布 是 已 知 的 ， 那 么 最 优化 的 重 访问 策略 可 以 数值 化 地 表示 出 来 。 例 如 ，[525] # 
述 的 朴 虫 使 用 了 非 线 性 规划 的 方法 来 解决 线性 系统 中 最 大 化 期 望 新 鲜 度 的 问题 。 
通常 来 说 ， 大 多 数 大 型 搜索 引擎 会 使 用 两 三 个 队列 ， 它 们 的 更 新 时 间 各 不 相同 : 一 个 队 
列 用 于 新 闻 网 站 ， 每 天 刷新 多 次 ; 一 个 队列 用 于 流行 或 相关 网 站 ， 每 天 或 每 周 更 新 一 次 ; 还 
有 一 个 大 型 队列 用 于 其 他 的 网 页 ， 它 每 月 或 者 每 几 个 月 刷新 一 次 。 
需要 注意 的 是 ， 这 里 所 考虑 的 重 访问 策略 认为 所 有 网 页 在 质量 方面 是 同类 的 ， 也 就 是 说 
Web 上 的 所 有 网 页 都 有 相同 的 价值 一 一 当然 这 并 不 现实 。 所 以 ， 需 要 关于 网 页 质量 的 更 多 
信息 ， 以 得 到 更 好 的 息 取 策略 ， 这 点 会 在 12. 5.4 节 讨论 。 
3. 新 鲜 度 估 计 
对 于 每 个 网 页 p 来 说 ， 下 列 信息 在 每 次 访问 之 后 就 可 知 了 : 
。 网 页 p 的 访问 时 间 截 :visit, 。 
。 网 页 p 最 后 一 次 修改 的 时 间 稚 (由 大 部 分 Web 服务 器 提供 ， 在 实际 中 ， 在 大 概 80% 一 
90% 的 访问 请 求 中 可 以 得 到 ): modified, 。 

。 网 页 的 文本 ， 它 可 以 用 来 与 更 旧 的 拷贝 比较 ， 以 检测 网 页 变化 ， 特 别 是 当 modified, 
未 提供 时 。 

如 果 重 访问 的 周期 足够 得， 那么 可 以 估计 下 面 的 信息 : 

。 网 页 第 一 次 出 现 的 时 间 : created, 。 
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。 网 页 无 法 再 访问 的 时 间 : deleted,, Koehler(917] 在 一 个 持续 数 年 的 长 期 研究 中 说 
到 ， 许 多 当时 无 法 访问 的 网 页 在 未 来 又 可 以 访问 了 。 

在 所 有 的 情况 中 ， 得 到 的 结果 只 是 真实 值 的 估计 ， 因 为 它们 是 通过 对 事件 〈 变 化 ) 轮 询 
得 到 的 ， 而 不 是 通过 事件 通知 ， 就 是 说 ， 网 页 可 能 在 连续 的 两 次 轮 询 之 间 发 生 了 变化 。 如 果 
网 页 p 未 被 访问 ， 那 么 p 的 拷贝 在 时 刻 : 是 最 新 的 概率 ww (zt) 随 着 时 间 的 增加 而 减 小 。 
Brewington 和 Cybenko[ 258] 认为， 如 果 某 个 网 页 的 变化 以 独立 的 时 间 间 隔 发 生 ， 那 么 就 
可 以 建 模 成 泊 松 过 程 。 然 而 ， 值 得 注意 的 是 ， 大 部 分 网 页 变化 表现 出 一 定 的 周期 性 ， 因 为 大 
部 分 更 新 是 在 与 所 研究 网 页 样本 相关 时 区 的 工作 时 间 发 生 的 。 所 以 那些 没有 考虑 这 个 周期 性 
的 估计 器 在 周 或 月 的 尺度 上 比 在 较 小 的 尺度 上 会 更 有 效 。 

网 页 变化 可 以 建 模 成 一 个 泊 松 过 程 。 在 这 种 情况 下 ， 如 果 自 上 次 访问 之 后 ， 又 过 去 了 上 
单位 时 间 ， 那 么 : 

up (t) CC e (12-3) 
BHA, 是 网 页 p 的 平均 变化 率 ， 它 可 以 根据 先前 的 访问 来 估计 。 

假设 我 们 已 经 访问 了 一 个 网 页 N, K, HEX, 次 访问 观察 到 网 页 变化 。 现 在 S, 是 自 第 
一 次 访问 网 页 已 经 过 去 的 时 间 。 一 个 直接 估计 A, 的 方法 是 : 
X 
S, 

Rm. MTT RAT WE. EAE A A ERR A A A SR AE BB AL, 
次 数 要 小 。 这 个 估计 还 有 其 他 一 些 问 题 ，Cho 和 Garcia-Molina[377] 进行 了 分 析 。 他 们 提 
出 并 分 析 了 一 个 更 好 的 估计 器 ， 该 估计 器 还 考虑 到 多 数 Web 服务 器 对 每 个 网 页 都 提供 一 个 
“最 后 修改 ”的 时 间 截 。 为 了 计算 这 个 估计 值 ， 在 每 次 访问 的 时 候 ， 慌 虫 必须 按 如 下 方式 累 
加 从 网 页 变化 开始 的 总 时 间 T 。 如 果 礁 虫 访问 时 并 没有 发 现 网 页 被 修改 ， 那 么 从 上 次 访问 
到 现在 的 时 间 被 加 到 累加 器 上 ; 如 果 访 问 时 网 页 已 经 被 更 改 了 ， 那 么 从 服务 器 提供 的 上 次 修 
改 时 间 到 现在 的 时 间 被 加 到 累加 器 上 。 然 后 ，AM 可 以 估计 为 : 

X, 
ua XD TTS (12-5) 

对 于 这 一 变化 频率 估计 器 及 其 他 估计 器 的 细节 可 以 参看 [377]. 

4. 网 页 变化 的 刻画 

尽管 对 网 页 有 不 同 的 时 间 相 关 的 指标 ， 最 常用 的 是 : 

。 年 龄 visit,-modified, 。 

。 生存 时 间 : deleted,-created， 。 

。 生存 时 间 内 变化 的 次 数 : changes,. 

。 平均 变化 间隔 lifespan, /changes, 。 

一 旦 从 样本 网 页 中 得 到 上 述 值 的 估计 ， 就 可 以 计算 出 整个 样本 的 一 些 有 用 的 指标 ， 比 如 
变化 间隔 的 分 布 、 网 页 平均 生存 时 间 ， 以 及 网 页 的 中 位 生存 时 间 ， 即 50%% 的 网 页 发 生变 化 
所 用 的 时 间 ， 也 可 以 叫做 Web 的 半衰期 一 一 这 是 从 物理 学 里 借 来 的 词汇 。 挑 选 出 来 的 一 些 
关于 网 页 变化 的 结果 在 表 12-1 中 进行 了 总 结 。 不 幸 的 是 ， 研 究 这 些 参数 的 方法 是 各 种 各 样 
的 ， 因 此 很 少 有 可 比较 的 结果 。 有 些 研究 人 员 关 注 网 页 的 生存 时 间 ， 因 为 他 们 关心 Web 内 
容 的 可 用 性 。 另 一 些 研究 人 员 关 注 网 页 变化 的 频率 ， 因 为 它 与 网 络 怜 取 更 直接 相关 ， 知 道 了 
这 一 点 可 以 帮助 生成 好 的 重 访问 顺序 。 
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R 12-1 关于 网 页 变化 的 部 分 结果 ( 按 样本 大 小 排序 ) 
































参考 文献 样本 观察 
半衰期 约 为 2 年 
[917] 360 个 随机 网 页 ， 长 期 研究 439% du RICH 6 4 
[1092] 500 个 网 页 (联机 论文 ) 半衰期 约 为 4 年 半 
[689] 2500 个 网 页 ， 大 学 网 站 下 均 寿 命 约 为 50 天 - 
中 位 数 年 龄 约 为 150 天 
[1514] 4200 个 网 页 (联机 论文 ) 半衰期 约 为 4 年 
平均 寿命 约 为 60 一 240 天 
[373] 720000 个 网 页 ， 流 行 站 点 40% thy com 网 页 每 天 都 变化 
50% HY edu 和 ,gov 网 页 在 4 个 月 内 保持 不 变 
[509] 950 000 个 网 页 PAPE 10 K~10 个 月 
有 很 多 链接 的 网 页 变化 得 更 频繁 
每 周 有 8% 的 新 网 页 
zs oF MAS. MEH 62% 的 新 网 页 有 新 的 内 容 
每 周 有 25% 的 新 链接 
80% 的 网 页 变化 都 是 很 小 的 
65% 的 网 页 在 10 周 时 间 内 保持 不 变 
[561] 1.5 亿 个 网 页 30% 的 网 页 只 有 小 变化 
在 不 同 域 间 可 访问 性 有 很 天 不 同 
[258] 8 亿 个 网 页 平均 寿命 约 为 140 天 








从 学 术 研 究 的 角度 来 看 ， 研 究 网 页 的 过 时 也 是 十 分 重要 的 课题 ， 因 为 引用 在 线 发 表 的 资源 正 
变 得 越 来 越 常见 。 大 多 数 人 假设 这 些 在 线 资源 是 持久 的 ， 但 实际 上 它们 并 不 是 。 为 了 解决 这 个 问 
题 ， 数 字 对 象 标识 符 (Digital Object Identifier, D. O. I. ， 见 http://www. doi. org/) 目前 被 大 部 分 
主要 的 科学 文献 出 版 者 所 采用 。 和 否则， 经 常 需要 报告 一 个 引用 的 URL 最 后 一 次 被 看 到 的 日 期 。 


12. 5.3 友好 策略 


如 Koster[934] 所 说 的 ，Web 机 器 人 的 使 用 尽管 对 某 些 任务 是 有 用 的 ， 但 对 一 般 社 区 
来 说 却 是 需要 付出 代价 的 。 网 络 息 虫 需要 可 观 的 带宽 ， 并 需要 在 较 长 的 时 间 内 高 度 并 行 操 
作 ， 所 以 它们 消耗 了 过 多 的 带宽 。 这 造成 服务 器 过 载 加 重 ， 特 别 是 当 对 服务 器 的 访问 频率 过 
高 ， 或 者 机 器 人 的 代码 没 写 好 时 。 

这 不 是 唯一 的 忧虑 ， 隐 私 也 同样 是 Web 怜 虫 的 一 个 问题 。 比 如 ， 它 们 可 能 访问 网 站 并 
不 打算 公开 的 那 部 分 内 容 ， 索 引 这 些 内 容 ， 然 后 公开 给 用 户 访问 。 最 后 ， 如 果 操 作 机 器 人 的 
搜索 引擎 对 下 载 的 网 页 保留 了 一 份 缓存 ， 目 前 还 未 实施 的 版 权 问题 可 能 会 出 现 。 

有 些 准则 对 疏 虫 的 持续 执行 同样 十 分 重要 。 如 果 考 虑 到 多 个 网 站 会 托管 在 某 些 物理 服务 
器 上 ， 那 么 对 某 个 网 站 不 友好 的 疏 虫 可 能 会 被 托管 提供 者 的 所 有 网 站 所 禁止 ， 从 而 无 法 卜 取 
许多 网 站 的 内 容 。 

成 为 社区 共识 、 所 有 主要 搜索 引擎 都 遵守 的 、 关 于 疏 虫 操作 的 三 条 基本 规则 是 : 

1) Web 爬虫 必须 声明 自己 是 怜 虫 ， 不 能 假装 自己 是 正常 的 Web 用 户 。 这 样 做 的 目的 包括 ， 
可 以 正确 计算 网 站 的 用 户 访问 数 ， 但 同时 又 使 得 在 某 些 情况 下 分 配给 爬虫 的 带宽 可 见 和 可 控 。 

2) Web 疏 虫 必须 遵守 机 器 人 排除 协议 (robots exclusion protocol) [933，935]， 它 为 
管理 者 明确 说 明了 服务 器 的 哪些 部 分 不 能 被 机 器 人 访问 。 
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3) 对 于 某 个 Web 服务 器 ， 爬 虫 必 须 保持 低 带 宽 使 用 。 这 意味 着 ， 朴 虫 不 应 该 从 同样 的 
网 站 上 同时 下 载 多 于 一 个 网 页 ， 而 且 在 连续 两 次 下 载 之 间 必 须 等 待 一 段 时 间 。 

例如 ， 四 个 较 大 的 搜索 引擎 遵循 如 下 规则 : 

。 Ask 搜索 :http://about. ask. com/en/docs/about/webmasters. shtml 

。 SEK (Googlebot); http://www. google. com/webmasters/bot. html 

。 MSN 搜索 : http://www. msnsearch. com/msnbot. htm 

。 雅虎 搜索 (Slurp!): http: //help. yahoo. com/help/us/ysearch/slurp/ 

下 面 ， 我 们 将 详细 讨论 关于 机 器 人 识别 、 排 除 协 议和 带宽 使 用 等 问题 。 

1. 机 器 人 识别 

大 多 数 分 析 Web 流量 的 软件 都 有 方法 区 分 网 民 和 有 疏 虫 。 这 是 有 意义 的 ， 因 为 大 多 数 网 
站 运营 者 都 想 要 精确 地 统计 他 们 网 站 的 独立 访问 人 数 ， 而 疏 虫 的 访问 可 能 会 人 为 地 提高 这 个 
数字 。 即 使 Web 服务 器 可 以 检测 到 疏 虫 的 浏览 模式 [1557]， 但 是 如 果 帆 中 能 够 声明 自己 的 
身份 ， 那 么 将 会 变 得 更 有 效 得 多 。 

联系 人 信息 对 网 站 管理 员 来 说 也 十 分 重要 。 即 使 当 疏 虫 是 友好 的 ， 并 采取 保护 措施 防止 
Web 服务 器 过 载 ,， 但 还 是 会 出 现 问题 ， 导 致 (用户 ) WR. Brin 和 Pagel263] 说 道 : 

“oe 运行 一 个 连接 超过 50 万 台 服 务 器 的 息 虫 …… 产 生 相 当 多 的 邮件 和 电话 。 

由 于 大 量 的 用 户 刚 开始 上 网 ， 总 有 人 不 知道 爬虫 是 什么 ， 因 为 这 是 他 们 见 到 的 第 

一 个 。 

HTTP 协议 [564] 包含 一 个 user-agent 字段 ， 它 可 以 用 于 识别 是 谁 发 出 了 这 次 访问 。 来 自 
RG fA] POR AY user-agent 字段 中 应 当 包括 某 个 网 页 的 地 址 ， 该 网 页 包含 私 虫 的 信息 、 邮 件 地 
址 或 联系 信息 。 如 果 没 有 提供 这 些 信 息 ， 那 么 网 站 管理 员 可 能 会 投诉 整个 来 源 网 段 的 所 有 者 。 

KER Web 流量 分 析 软 件 包 含 大 型 搜索 引擎 的 爬虫 所 使 用 的 user-agent 描述 。 对 于 小 
ACHR, BRS SR PAA “crawler” Be “robot” Khia, LAI ARIS. 

2. 机 器 人 排除 协议 . 

机 器 人 排除 协议 1933, 935] 涉及 三 种 类 型 的 排除 : 服务 器 范围 (server-wide)、 网 页 
级 (page-wise) 排除 和 缓存 的 排除 。 

服务 器 范围 排除 规则 告诉 爬虫 哪些 目录 不 应 该 让 取 。 这 是 通过 位 于 服务 器 根 目 录 中 的 
robots. txt 文件 实现 的 。 文 件 的 语法 十 分 简单 ， 基 本 上 每 行 一 条 指令 ， 每 条 指令 说 明 哪 些 
user-agent (BIG RAY 4) 必须 遵守 所 列 出 的 限制 ， 如 不 能 下 载 的 目录 。 例 如 : 


User-agent: * 

Disallow: /data/private 

Disallow: /cgi-bin 
EBA, re aR REP Re /data/private 和 /cgi/bin。 

网 页 级 排除 规则 通过 在 网 页 中 包含 元 标签 (meta-tag) 来 实现 。 元 标签 是 标准 HTML 
语法 的 一 部 分 ， 它 允许 网 页 作者 在 网 页 中 加 入 key=value 形式 的 多 对 信息 。 例 如 ， 下 面 的 
元 标签 : 

<meta name="robots" content="noindex ,nofollow"/> 
它 表示 处 虫 既 不 能 索引 这 个 网 页 ， 也 不 能 跟踪 这 个 网 页 中 的 链接 。 

缓存 排除 通常 由 销售 信息 访问 权 的 发 布 者 使 用 。 尽 管 他 们 允许 爬虫 索引 全 部 网 页 的 内 容 ， 
以 保证 其 网 页 链接 可 以 存在 于 搜索 结果 中 ， 但 他 们 告诉 搜索 引擎 不 要 将 本 地 缓存 的 网 页 的 拷贝 
展示 给 用 户 。 这 是 通过 在 与 网 页 级 排除 相同 的 HTML 标签 中 ， 使 用 nocache 关键 词 实现 的 : 


<meta name="robots" content="nocache"/> 
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即使 这 些 预防 措施 都 做 到 了 ， 疏 虫 还 是 可 能 会 访问 那些 不 希望 公开 的 网 页 ， 结 果 可 能 会 导致 
法 律 问题 。 因 此 ， 从 息 取 的 网 页 数据 库 中 快速 删除 某 个 文档 的 方法 十 分 重要 。 

3. 控制 带宽 使 用 

了 息 忠 可 用 的 带宽 通常 比 它 访问 的 网 站 的 带宽 要 大 得 多 。 如 果 使 用 多 个 线程 ， 息 虫 可 以 轻 
松 地 使 网 站 过 载 ， 特 别 是 小 网 站 。 为 了 避免 这 个 问题 ， 通 常 对 一 个 网 站 只 打开 一 个 连接 。 而 
且 ， 在 连续 的 两 次 访问 之 间 ， 疏 虫 会 延迟 一 段 时 间 。 这 个 延迟 时 间 是 一 个 重要 的 参数 ， 
[933] 第 一 次 提出 了 60 秘 的 建议 。 然 而 ， 如 果 以 这 样 的 速度 从 一 个 网 站 下 载 10 万 个 网 页 ， 
那么 即使 存在 零 时 延 且 带宽 无 限 的 完美 连接 ， 也 要 花 两 个 月 的 时 间 才 能 全 部 下 载 完 。 此 外 ， 
我 们 会 长 久 地 使 用 Web 服务 器 的 部 分 资源 ， 这 点 可 能 也 是 无 法 接受 的 。 

Chof377] 建议 使 用 10 秒 作为 连续 两 次 访问 之 间 的 时 间 间 隔 ， 而 WIRE em [95] 使 
用 15 秒 作为 默认 值 。Mercator JER [759] 则 遵循 一 个 自 适 应 的 友好 策略 ;如果 从 给 定 的 
服务 器 下 载 一 个 文档 要 花 1 秒 ,那么 仆 虫 会 等 待 10 Xt 秒 再 下 载 下 一 个 网 页 。Dill 等 人 
[498] 使 用 1 秘 的 时 间 间 隔 。 来 自 访问 日 志 的 一 些 坊间 证 据 显示 ， 知 名 爬虫 的 访问 间隔 从 
20 秒 到 三 四 分 钟 不 等 。 

最 近 ， 有 些 Web Me CHA HERR. MSN 搜索 和 Ask) 已 经 开始 遵从 某 个 扩展 的 机 器 
人 排除 协议 ， 它 允许 网 站 运营 者 决定 朴 虫 在 索引 他 们 的 网 站 时 所 用 的 延迟 时 间 。 只 要 在 
robots. txt 文 件 中 加 入 一 行 来 指定 crawl-delay 的 值 即 可 实现 它 ， 例 如 

Crawl-delay: 45 
TEER, PETE Be A i lin] SB] BE A5 秒 。 


12.5.4 组 合 策略 


为 了 组 合 我 们 已 经 介绍 过 的 策略 ， 我 们 首先 要 说 明 的 是 ， 友 好 策略 只 对 爬虫 的 短期 行为 
有 影响 。 友 好 策略 的 时 间 尺 度 比 选择 和 新 鲜 度 策略 的 要 小 。 我 们 可 以 利用 这 两 种 不 同 的 时 间 
尺度 把 爬虫 的 行为 分 为 两 部 分 : 短期 调度 和 长 期 调度 ， 前 者 处 理 友好 策略 ， 后 者 处 理 选择 和 
新 鲜 度 ， 如 12. 5 节 所 述 。 

例如 ， 考 虑 到 我 们 有 网 页 的 质量 和 新 鲜 度 的 估计 ， 一 个 很 自然 的 组 合 是 考虑 下 载 单个 网 
页 所 得 到 的 收益 Cprofit) [95j。 假 设 本 地 文档 集中 的 一 个 网 页 的 质量 估计 值 是 g 〈 如 基于 
全 局 的 排序 顺序 ) ， 它 保持 最 新 的 概率 是 p (如 基于 新 鲜 度 估 计 )， 那 么 我 们 可 以 认为 当前 它 
在 索引 中 的 价值 是 pXg。 如 果 我 们 现存 下载 这 个 网 页 ， 那么 它 保 持 最 新 的 概率 变 成 1， 而 其 
价值 就 变 成 ga。 于 是 ， 下载 该 网 页 的 期 望 收 益 是 gx (1 一 p)。 一 个 很 自然 的 策略 就 是 ， 按 照 
期 望 收益 对 网 页 排序 ， 优 先 下载 最 大 化 平均 期 望 收益 的 网 页 集合 。 

需要 注意 的 是 ， 其 他 类 型 的 衰减 指标 可 以 用 于 在 资源 库 中 “不 新 鲜 的 ”网 页 。 例 如 ， 现 
有 指标 值 可 以 扩展 为 gXp*， 其 中 参数 a 使 得 新 鲜 度 比 质量 更 重要 或 者 相反 。 


12.6 评价 
本 节 将 讨论 如 何 评价 息 取 策略 。 实 际 上 ， 公 平地 比较 不 同 的 息 忠 是 不 可 能 的 ， 因 为 一 个 
公平 的 比较 应 该 让 门 虫 在 同样 的 网 站 上 运行 ， 而 且 需 要 在 严格 相同 的 网 络 和 服务 器 条 件 下 。 


12. 6. 1 评价 网 络 使 用 


图 12-9a 展示 了 对 于 一 个 假想 的 、 由 五 个 网 页 组 成 的 批 过 程 最 优 的 息 取 场景 。z 轴 是 时 
间 〈 如 以 秒 为 单位 ) ，y 轴 是 速度 (如 以 字 节 / 秒 为 单位 )， 所 以 每 个 网 页 的 面积 是 它 的 大 小 。 
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下 载 器 的 最 大 带宽 是 B* ， 所 以 息 取 工作 可 在 如 下 时 间 完 成 ， 


> ) size(P;) 
T= 一 一 (12-6) 


其 中 size(P,) 是 网 页 P: 的 大 小 。 


a] 





带宽 
2 | 











2 
D 
Y 








N 


时 间 时 间 To T 
a) l b) 
图 12-9 a) 最 优 的 短期 调度 ，b) 实际 的 情况 。 因 为 下 载 网 页 的 总 大 小 仍然 
是 一 样 的 ， 所 以 灰色 区 域 和 斜 线 区 域 的 面积 相同 


让 我 们 考虑 更 实际 一 点 的 情况 : 
。 下 载 每 个 网 页 的 速度 是 可 变 的 ， 所 以 在 某 些 点 ， 部 分 带宽 很 有 可 能 浪费 了 。 注 意 ， 
息 虫 的 带宽 比 它 所 访问 的 网 站 的 最 大 速度 要 高 。 

。 同一 网 站 的 两 个 网 页 不 能 一 个 接着 另外 一 个 立即 下 载 ， 必 须 执行 友好 策略 。 

在 这 样 的 假设 下 ， 可 能 会 出 现 不 同 的 候 取 时 间 线 ， 如 图 12-9b 所 示 。 在 最 优 的 情况 下 ， 
使 用 最 大 带宽 B, ERRENA T 时 结束 ; 而 在 实际 情况 下 ， 需 要 更 多 的 时 间 T, AA 
某 些 过 载 或 者 远 距离 服务 器 的 带宽 被 浪费 了 。 浪 费 的 带宽 可 以 用 B* X(T 一 T* ) 来 度量 。 

如 果 一 批 网 页 在 网 页 数量 和 主机 数量 之 间 服 从 宕 律 分 布 〈 也 就 是 说 ， 有 少数 大 站 点 和 许 
多 小 站 点 )， 那 么 当 快要 结束 时 很 有 可 能 只 有 部 分 主机 是 活跃 的 。 如 果 最 后 只 有 部 分 主机 是 
活 夏 的 ， 那 么 一 旦 大 部 分 已 经 下 载 完 了 ， 有 息 取 就 应 该 停止 。 尤 其 是 ， 如 果 剩 下 的 主机 数量 十 
分 少 ， 那 么 带宽 就 不 可 能 完全 被 使 用 。 

通过 使 用 更 多 的 线程 ， 短 期 调度 可 以 使 用 满 带宽 ， 减少 完成 时 间 。 然 而 ， 如 果 使 用 了 太 
多 的 线程 ， 那 么 在 线程 之 间 切 换 控制 的 代价 就 变 得 很 郧 贵 。 通 过 在 处 理 过 程 的 任何 时 候 都 避 
免 只 有 少数 几 个 网 站 可 供 选 择 ， 网 页 的 访问 顺序 也 可 以 优化 。 


12. 6.2 评价 长 期 调度 


在 12. 5.1 节 ， 我 们 说 明了 长 期 调度 的 几 个 策略 。 为 了 比较 不 同 的 策略 ， [378，220， 
100] 以 及 其 他 人 使 用 下 面 这 些 思 想 。 首 先 ， 对 文档 集中 的 每 个 网 页 计算 一 个 估计 网 页 质量 
的 指标 。 然 后 ， 对 于 每 种 策略 ， 将 网 页 按照 下 载 顺序 排列 ， 并 对 每 个 网 页 计算 所 选 质量 指标 
值 的 总 和 。 这 样 的 实验 结果 是 类 似 于 图 12-10 (来 自 [100]， 使 用 来 自 .gr 域 的 350 万 个 网 
页 的 文档 集 ) 的 一 张 图 。 图 中 使 用 了 PageRank 作为 质量 指标 ， 模 拟 了 多 个 爬 取 策略 ， 所 有 
这 些 策略 都 从 一 个 任意 、 但 固定 的 结 点 集合 开始 。 

图 12-10 模拟 的 息 取 策略 有 三 个 : AR (in-degree)、 广 度 优先 (breath-first) 和 全 知 
(omniscient)。 广 度 优先 策略 之 前 已 经 提 到 过 ， 它 实现 了 一 个 先进 先 出 队列 来 保存 新 发 现 的 
URL， 并 使 用 先进 先 出 的 准则 来 调度 URL 下 载 。 入 度 策略 通过 计算 被 所 有 已 下 载 网 页 所 指 
向 的 次 数 来 选择 接 下 来 下 载 的 网 页 。 
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网 页 比例 
图 12-10 采用 PageRank 的 长 期 调度 评价 


全 知 是 一 个 理想 中 的 策略 ， 它 查询 某 个 已 经 知道 整个 Web 图 ， 并 已 经 事先 计算 出 每 个 
网 页 的 真实 PageRank 的 “预言 者 ”(〈oracle) 。 当 这 个 策略 需要 优先 下 载 时 ， 它 会 向 预言 者 
查询 排名 最 高 的 网 页 并 下 载 它 。 注 意 ， 这 个 策略 和 其 他 策略 一 样 ， 受 制 于 某 些 限制 ， 只 能 下 
载 那些 被 已 下 载 的 网 页 指向 的 网 页 。 这 代表 了 任何 可 行 策略 的 性 能 上 限 。 

如 果 把 PageRage 作为 质量 指标 ， 那 么 图 12-10 说 明 全 知 策略 比 其 他 两 个 策略 表现 得 都 
好 。 注 意 整个 息 虫 的 概貌 可 以 通过 单个 数值 来 衡量 ,例如 在 息 取 期 间 质 量 指 标的 平均 值 〈 曲 
线 下 面积 )， 或 者 在 某 个 固定 点 的 质量 指标 值 〈 如 在 息 取 10% 时 )， 它 们 根据 使 用 怜 虫 的 特 
定 应 用 而 定 。 


12.7 ”趋势 和 研究 问题 


到 目前 为 止 ， 我 们 已 经 讨论 了 一 些 标准 的 卜 取 技术 。 本 节 将 讨论 对 基本 疏 取 范式 的 一 些 
扩展 ， 以 及 一 些 研 究 挑战 。 


12.7.1 RER “A” 


我 们 所 讲 的 过 程 可 以 索引 所 有 通过 跟踪 链接 可 达 的 网 页 。Raghavan 和 Garcia-Molina 
[1324] EW, E Web 上 ， 仍 然 存 在 大 量 公 开 可 访问 的 信息 ， 但 是 无 法 通过 跟踪 链接 到 达 ， 
只 能 通过 查询 或 者 提交 表单 ， 如 图 12-3 所 示 。 这 部 分 Web RH “HH” Chidden) 或 “ 深 
的 ” (deep) [259]; 曾 有 估计 ， 在 2000 年 [259]， 这 类 网 页 的 规模 (网 页 数 ) 多 达 整 个 
Web 的 550 倍 。 新 近 的 研究 表明 ， 暗 网 的 规模 可 能 要 更 大 [357]. 

为 了 礁 取 包含 暗 网 网 页 的 数据 库 ， 首 先 解析 常规 想 取 所 发 现 的 网 页 ， 在 其 中 查找 表单 ; 
然后 把 这 些 表单 转换 成 内 部 形式 ， 对 于 每 个 表单 项 ， 它 应 该 包含 一 个 或 多 个 标签 ; 再 把 这 些 
标签 与 内 部 的 特定 领域 的 资源 进行 匹配 ; 当 匹 配 完成 后 ， 生 成 并 执行 一 个 或 多 个 特定 领域 的 
查询 ， 然 后 由 让 虫 解析 并 保存 查询 的 结果 。 

例如 ， 一 个 收集 旅行 信息 的 朴 虫 可 能 有 很 多 流行 的 旅行 目的 地 。 这 样 的 疏 虫 在 它 找 到 一 
个 输入 地 名 的 表单 时 ， 能 够 自动 地 发 送 查 询 。 这 些 表单 可 以 通过 查看 网 页 中 的 字段 名 或 者 它 
们 周围 的 文本 识别 出 来 。 
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12.7.2 Ze POU FF Bh T Ag We BY 


到 目前 为 止 , RMNCAAA, MERK, Web 服务 器 是 被 动 的 ， 但 是 也 不 尽 然 。 有 

趣 的 是 ， 对 1993 年 那个 描述 第 一 个 Web 怜 虫 的 帖子 的 回复 已 经 提出 了 这 种 可 能 性 [1421]: 
如 果 你 能 问 每 个 服务 器 能 否 连接 ， 这 样 是 不 是 更 好 呢 ? 这 样 似乎 会 使 得 事情 运 

作 得 更 快 。 因 为 每 个 服务 器 都 能 访问 本 地 的 所 有 信息 ， 所 以 它 能 够 快速 、 唯 一 地 找 

到 所 有 的 HREF 引用 ， 并 报告 给 其 他 服务 器 。 

实际 上 ， 第 一 个 搜索 引擎 ALIWEB 就 采用 了 这 个 思想 。Web 服务 器 必须 在 一 个 本 地 文 
件 中 公布 它们 的 内 容 ， 然 后 由 扑 忠 组合 各 种 各 样 的 本 地 文件 。 不 幸 的 是 ， 大 多 数 网 站 开发 人 
员 都 太 懒 了 ， 并 未 实现 这 些 系统 。 大 多 数 的 现代 扑 忠 都 把 Web 服务 器 当做 被 动 的 对 象 。 

从 搜索 引擎 的 角度 来 看 ， 或 许 最 重要 的 问题 是 检测 网 页 是 否 改变 了 。 目 前 ， 这 主要 还 是 
通过 轮 询 Cpolling) 来 实现 ， 但 把 这 种 方式 变 成 某 种 通知 (notification) 的 形式 或 许 更 高 
效 ， 正 如 在 现代 计算 机 中 使 用 设备 中 断 ， 而 不 是 轮 询 。 

对 于 给 Web 疏 虫 推送 最 后 修改 数据 的 最 具体 的 提案 由 Gupta 和 Campbell[687] 提出。 
它 包 含 一 个 代价 模型 ， 在 这 个 模型 下 ， 只 有 当 网 站 被 搜索 引擎 错误 展示 的 程度 超过 一 定 阐 值 
时 ， 才 会 向 息 忠 发 送 元 数据 。 

MIA, Web 疏 虫 从 多 数 网 站 那里 得 到 的 唯一 帮助 与 同样 能 帮助 普通 用 户 的 一 些 技术 相 
关 。 这 包括 用 于 确认 网 页 是 否 改 变 的 “if-modified-since” 请 求 ， 它 是 Web 代理 常 使 用 的 技 
术 ， 对 Web 爬虫 也 十 分 有 用 。 这 还 包括 压缩 ， 特 别 是 对 大 规模 的 朴 取 十 分 有 用 。 

对 于 实际 使 用 的 通知 方案 ， 使 用 最 多 的 是 在 RSS (Really Simple Syndication) 的 ping 
服务 ， 如 http:/www. rssping. com/， 它 是 博客 和 新 闻 源 所 使 用 的 方案 ， 用 来 向 搜索 引擎 和 
新 闻 聚 合 器 通知 更 新 。 实 际 上 ，RSS ping 的 工作 是 ， 当 加 入 了 新 的 内 容 或 者 旧 的 内 容 被 修 
改 时 ,让 新 闻 聚 合 咒 重新 息 取 由 内 容 提 供 商 发 布 的 资源 描述 框架 (Resource Description 
Framework, RDF). 

Web JURA ESHA DER PER ER, 4: 

。 改进 选择 策略 ， 如 开发 一 些 策略 PETE TENE HH RE RCA RHR 
相关 的 网 页 。 现 在 ， 在 能 够 得 到 的 最 好 的 网 页 排序 与 最 佳 的 启发 性 方法 之 间 还 存在 
差距 。 在 Web 图 中 高 质量 网 页 聚合 (或 分 散 ) 的 程度 很 重要 。 

。 提高 内 存 和 网 络 使 用 率 ， 特 别 是 对 于 内 存 受 限 的 环境 ， 如 桌面 计算 机 的 按 需 候 取 。 

。 扑 取 以 获得 事实 ， 包 括 息 取 语 义 网 和 聚焦 候 取 。 

。 在 其 他 环境 中 实施 息 取 ， 例 如 在 对 等 服务 中 。 

。 爬 取 社交 网 络 ， 以 及 实时 Web， 如 Twitter, 


12.7.3 Sp FFX MR 


另 一 个 重要 的 趋势 是 从 不 同 的 地 理 位 置 息 取 ,也 就 是 分 布 式 息 虫 。 因 为 网 络 拓 扑 也 有 可 
能 成 为 瓶颈 ， 所 以 这 也 是 重要 的 。 在 这 种 情况 下 ， 我 们 可 以 小 心地 将 Web 爬虫 分 布 到 不 同 
的 地 理 位 置 上 5538]j。 这 个 优化 问题 有 很 多 变数 ， 包 括 在 不 同位 置 的 网 络 使 用 代价 和 把 数据 
发 送 回 搜索 引擎 的 代价 。 在 最 近 的 一 篇 论文 中 ，Cambazoglu 等 人 [325] 显示 ， 如 果 采 用 分 
布 式 技术 ,不 仅 能 够 更 快 息 取 ， 而 且 我 们 能 够 优先 候 取 更 相关 的 网 页 。 


12.8 文献 讨论 
1994 年 提出 第 一 个 候 虫 架构 [529，1103，1266]， 当 时 Web 上 只 有 几 十 万 个 主机 。 关 
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FHL ft A Bn a AK AF RY i L368, 1698]. 

Jae. A BEA TY AE REY 6 CLE Najork 和 Wiener 关于 广度 优先 爬 取 的 工 
作 [1169], Cho 和 Garcia-Molina 发 表 的 系列 论文 L373, 374, 375, 376, 377, 378, 
379], ULAR Chakrabarti 在 聚焦 疏 取 方面 的 开创 性 工作 [3531]。 最 近 的 综述 有 Olston 和 
Najork[1229j。 其 他 的 好 综述 包括 Chakrabarti 的 数据 挖 据 书 中 关于 扑 取 的 章节 [349]， 以 
及 Castillo 的 博士 论文 [342]. 

现在 ,我 们 提供 一 些 关于 不 同类 型 仆 虫 的 线索 。 

(1) AREARE 

Internet Archive (Internet 档案 库 ? [301] 使 用 了 一 个 叫 “Heritrix” HR, RHE 
的 是 为 了 对 Web 的 大 部 分 保存 周期 性 的 快照 。 它 以 分 布 式 方式 使 用 了 多 个 进程 ， 将 一 些 固 
定数 量 的 网 站 分 配给 每 个 进程 。 隔 一 段 较 长 的 时 间 才 按 序 进 行进 程 间 URL 交换 ， 因 为 这 是 
十 分 耗 时 的 。Internet Archive 的 爬虫 也 需要 处 理 改变 DNS 记录 的 问题 ， 所 以 它 保留 一 份 主 
机 名 到 IP 映射 的 历史 档案 。 

谷歌 的 早期 架构 在 [263] 中 详细 描述 ， 包 括 息 虫 是 用 C 十 十 和 Python 4a Faas. RE A 
索引 进程 进行 了 整合 ， 因 为 文本 解析 既 用 于 全 文 索引 又 用 于 URL 抽取 。 有 一 个 URL 服务 器 用 于 
发 送 URL 列表 ， 它 们 将 被 多 个 爬 取 进 程 处 理 。 在 解析 时 ， 发 现 的 URL 被 传送 到 URL 服务 器 ， 
以 查看 该 URL 是 否 之 前 已 经 被 看 过 了 。 如 果 没 有 ， 将 这 个 URL 加 到 URL 服务 器 的 队列 中 。 

FAST 搜索 引擎 的 架构 在 [1361]」 中 有 所 描述 。 这 是 一 个 分 布 式 的 架构 ， 其 中 每 个 机 器 有 
一 个 “文档 调度 器 ”维护 一 个 文档 队列 ， 其 中 的 文档 将 被 文档 处 理 器 下 载 并 保存 在 本 地 存储 子 
系统 中 。 每 个 疏 虫 通过 交换 超 链 接 信息 的 分 发 器 (distributor) IRMA IE BETH. 

(2) 模块 化 把 中 

Mercator[759] 是 一 个 用 Java 编写 的 模块 化 《Modular) Web 爬虫 。 它 的 模块 性 来 自 于 
它 使 用 了 可 交换 的 协议 模块 和 处 理 模 块 。 协 议 模块 与 如 何 获取 网 页 相关 (如 通过 HTTP), 
而 处 理 模块 与 如 何 处 理 网 页 相关 。 标 准 的 处 理 模 块 仅仅 解析 网 页 ， 然 后 抽取 新 的 URL， 但 
是 其 他 处 理 模 块 可 以 用 于 索引 网 页 的 文本 ， 或 者 从 Web 收集 统计 数据 。 

WebFountain[525] 是 一 个 与 Mercator 类 似 的 分 布 式 模块 化 卜 虫 ， 但 是 它 是 用 C 十 十 编 
写 的 。 它 的 特色 在 于 它 有 一 个 控制 机 器 来 协调 一 系列 “蚂蚁 ”(ant)〉 机 器 。 它 还 包含 一 个 用 
于 最 大 化 新 鲜 度 的 方程 组 描述 和 求解 模块 。 

WebSPHINX[1134, 1135] 是 一 个 Java 类 库 ， 它 实现 了 多 线程 网 页 检索 、HTML 解 
析 ， 以 及 一 个 设置 初始 URL 的 图 形 用 户 界 面 ， 用 于 抽取 下 载 的 数据 ， 从 而 实现 一 个 基本 的 
文本 搜索 引擎 。 

(3) FARK 

NUTCH[1217] 是 一 个 用 Java LMM, CE Lucene 搜索 引擎 的 一 部 分 ， 目 前 由 
Apache 基金 会 赞助 。 它 包含 一 个 用 于 内 网 网 页 息 取 的 简单 界面 ， 以 及 一 系列 更 为 强大 的 用 
于 大 规模 扑 取 的 命令 。 

WIRE[95，343] 是 一 个 用 C 十 十 编写 的 Web 疏 虫 ， 它 包含 多 种 调度 网 页 下 载 的 策略 和 
一 个 生成 关于 所 下 载 网 页 的 报告 和 数据 的 模块 。 正 因为 后 者 ， 它 已 经 用 于 Web 刻画 。 

ht://Digl 783] (AC 编写 ) 是 一 个 用 于 域 或 内 网 的 索引 和 检索 系统 ， 它 包含 一 个 Web RH. 

Fe iy Ze SRP HEB) A RAY WebBase[768] (C 语言 ) 、CobWeb[L472] (Pel 语言 )、 
PolyBot( 1468] (C++ #l Python 语言 ) ， 以 及 WebRace[1745] (lava 语言 ) 。 
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13.1 介绍 


文本 文档 往往 显示 结构 信息 ， 例 如 ， 科 研 论文 包含 逻辑 结构 ， 如 摘要 、 多 个 章节 和 小 
节 ， 每 一 部 分 包含 多 个 段落 。 书 包含 布局 结构 ， 例 如 页 面 、 分 栏 等 。 其 他 文本 文档 则 可 能 包 
含 由 词性 标注 器 输出 的 结果 。 这 些 结构 信息 通常 使 用 标记 语言 〈 参 见 6. 4 节 ) 进行 编码 ， 如 
SGML 格式 ， 以 及 现在 主要 使 用 的 可 扩展 标记 语言 (XML) 格式 。 

信息 检索 的 很 多 阶段 都 可 以 利用 结构 信息 。 首 先 ， 在 索引 阶段 ， 可 以 利用 它 识 别 和 索引 
文档 的 不 同 部 分 ， 作 为 独立 但 相关 的 单元 ， 其次， 在 检索 阶段 ， 可 以 利用 它 对 文档 不 同 粒度 
的 组 成 部 分 进行 检索 ;再 次 ， 在 结果 展示 阶段 ， 也 可 以 利用 结构 信息 选取 文档 的 一 部 分 进行 
显示 ， 而 不 是 文档 的 全 部 ; 最后， 查询 语言 可 用 于 在 查询 阶段 形成 要 检索 的 内 容 和 单元 结构 
约束 。 

考虑 这 样 一 位 具有 很 好 记忆 力 的 用 户 ， 他 回想 起 了 一 篇 感 兴趣 的 文档 中 包含 的 一 个 页 
面 ， 在 这 个 页 面 中 “red wine” 出 现在 一 个 “figure” (ED 的 周围 ， 这 个 图 的 标签 中 包含 
“Chile” 这 个 单词 。 如 果 可 以 只 返回 这 个 页 面 ， 那 么 用 户 一 定 十 分 高 兴 。 利 用 经 典 的 信息 检 
索 模 型 ， 查 询 可 以 按 如 下 方式 表达 : 


"red wine" and "chile" 

使 用 这 样 的 查询 会 返回 包含 这 两 个 字符 串 的 所 有 文档 。 显 然 ， 结 果 中 一 定 包含 了 很 多 用 
户 不 想 看 到 的 文档 。 在 这 个 特定 的 情况 下 ， 用 户 更 愿意 使 用 更 加 丰富 的 语言 来 表示 查询 ， 
例如 : 

same-page (near. ("{red wine}", figure (label ("chile")))) 

这 个 查询 表达 了 详细 的 视觉 回忆 。 这 个 例子 说 明 准 许 指向 文本 内 容 和 附着 在 文本 上 的 结构 约 
东 的 检索 语言 的 吸引 力 。 

将 文本 内 容 信息 和 文档 结构 信息 进行 结合 的 检索 模型 叫做 结构 化 文本 检索 (struc 
tured text retrieval) 模型 。 从 20 世纪 80 年 代 后 期 到 20 世纪 90 年 代 中 期 ， 提 出 了 许多 结 
构 化 文本 检索 模型 。 在 20 世纪 90 年 代 后 期 ， 随 着 XML (1998 年 ) 的 提出 ， 越 来 越 多 的 
人 开始 关注 结构 化 文本 检索 的 研究 。XML 现在 也 成 为 一 种 结构 化 文档 的 事实 (defacto) 
标准 。 对 于 XML 检索 的 研究 ， 在 2002 年 INEX 启动 之 后 有 了 进一步 推动 。INEX XML 
检索 评测 《Initiative for the Evaluation of XML Retrieval, INEX)© 准许 研究 人 员 比 较 和 讨论 
那些 为 XML 检索 所 特别 研究 的 模型 的 性 能 。 现 在 ，XML 检索 几乎 是 结构 化 文本 检索 的 
同义词 。 

本 章 在 13. 2 节 讨 论 由 结构 化 文本 检索 模型 带 来 的 多 种 类 型 的 结构 化 能 力 。13. 3 节 将 介 
绍 早期 的 结构 化 文本 检索 方法 ， 这 些 检 索 方 法 可 以 看 做 是 XML 检索 的 先驱 。13. 4 节 将 介绍 
XML 检索 。 需 要 指出 的 是 数据 库 和 信息 检索 研究 人 员 都 共同 关注 将 XML 作为 文档 标记 标 
准 所 带 来 的 一 系列 问题 (608). 13.4 节 讨 论 了 信息 检索 研究 界 所 关注 的 面向 内 容 的 XML 检 
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索 (content-oriented XML retrieval) 问题 。13. 5 节 概 括 地 介绍 了 INEX， 它 定义 了 XML 检 
索 效 果 的 标准 评价 方法 。13, 6 节 通 过 介绍 为 访问 XML 文档 而 开发 的 查询 语言 ， 对 本 章 进 行 
总 结 。 


13.2 结构 化 能 力 


从 20 世纪 80 年 代 末 一 直 持 续 到 整个 20 世纪 90 年 代 ， 多 种 结构 化 文本 检索 模型 出 现在 
文献 中 。 它 们 包含 三 个 主要 部 分 [761]: 1) 文本 的 模型 ， 定 义 了 字符 集 、 同 义 词 、 禁 用 词 
以 及 词 干 提取 ; 2) 结构 的 模型 ， 定 义 了 标记 语言 、 索 引 结构 、 结 构 类 型 ; 3) 查询 语言 ， 定 
义 了 什么 可 以 询问 以 及 结果 是 什么 。 这 里 我 们 不 对 这 三 个 部 分 如 何在 不 同 的 结构 化 文本 检索 
模型 中 加 以 处 理 进 行 综述 。 而 是 关注 它们 的 结构 化 能 力 ， 这 与 文本 成 分 是 如 何 定义 的 相关 。 
这 里 的 文本 成 分 通常 指 的 是 连续 的 文本 部 分 ， 涉 及 元 素 (element), KR (region), HEt 
(fragment) 或 者 段 (segment)。 我 们 对 结构 化 文本 检索 的 结构 化 能 力 在 如 下 三 个 方面 进行 
对 比 : 显 式 和 隐 式 结构 、 静 态 和 动态 结构 ， 以 及 单一 和 多 层次 结构 。 


13.2.1 显 式 和 隐 式 结构 对 比 


绝 大 多 数 的 结构 化 文本 检索 模型 是 基于 文档 的 显 式 结构 定义 的 。 换 名 话说， 这些 模 型 
的 工作 基础 是 文档 已 经 结构 化 ， 这 种 情况 下 文档 的 章 、 节 和 标题 等 都 被 清晰 地 标记 出 来 。 
这 些 结 构 通 常 使 用 标记 语言 提供 。 因 此 ， 这 些 模型 假设 文本 已 经 根据 事先 定义 的 模式 
(DTD 或 者 XML 模式 ) 进行 了 很 好 的 表示 。 显 式 结构 确保 这 些 模型 知道 哪些 区 域 是 相互 
REN, FAW UREA MAM KA, MARMARA CH XPath 中 的 父子 关系 ， 参 
见 13. 6. 3 节 )。 假 如 一 个 用 户 正在 寻找 包含 “red wine” 的 节 ， 就 可 以 通过 如 下 的 查询 进 
GRR: 

section CONTAINS "red wine" 
这 个 查询 会 返回 所 有 包含 “red wine” WT. 

在 隐 式 结构 的 情况 下 ， 文 档 的 结构 信息 与 文本 内 容 没 有 明确 区 别 。 文 档 通 过 一 些 标 签 序 
列 进行 描述 ， 单 词 标 签 和 结构 标签 是 不 区 分 的 。 因 此 ， 结 构 元 素 是 通过 检索 时 查找 结构 标签 
的 开始 和 结束 来 构建 的 。 那 些 包 含 了 特定 的 开始 标签 和 对 应 的 结束 标签 ， 并 且 满 足 内 容 要 求 
的 区 域 会 被 检索 出 来 。 一 个 涉及 隐 式 结构 的 查询 例子 如 下 : 

("<section>" FOLLOWING "</section>") CONTAINS "red wine" 
section 元 素 只 出 现在 查询 阶段 。 需 要 指出 的 是 ， 上 面 这 个 查询 与 指定 了 以 一 个 特定 单词 开 
始 ， 以 另外 一 个 单词 结尾 的 区 域 查询 没有 区 别 。 换 名 话说 ， 对 单词 标签 和 结构 标签 的 处 理 没 
有 区 别 。 


13.2.2 静态 与 动态 结构 对 比 


文本 检索 模型 准许 在 查询 中 动态 地 定义 结构 ， 这 样 可 以 返回 并 没有 被 显 式 地 在 文本 文档 中 
进行 标记 的 元 素 或 者 区 域 。 在 XML 查询 语言 (XQuery) 和 XML 全 文 查询 语言 (XQuery 
Full-Text) 中 《在 13. 6. 3 节 进 行 描述 ) ， 通 过 元 素 构造 实现 。 但 是 ， 在 其 他 模型 中 ， 动 态 
结构 是 模型 中 自然 的 一 部 分 (例如 那些 包含 由 类 似 Word 的 应 用 程序 所 控制 的 一 些 隐 式 结构 
的 模型 );。 考 虑 下 面 这 个 结构 化 文档 : 

SPIRE, “Patagonia, Chile”, 2001, The conference ..... . 

假设 上 面 的 这 个 文档 可 以 利用 如 下 语法 作为 文档 模式 [648」 显 式 地 进行 结构 化 、: 
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entry := conference ’, ’ area ’, ’ year ’, ’ content’.’ 
conference := text ; 

area := 7) text 7"? ; 

year := digit digit digit digit ; 

content := text ; 

text := ( letter | ， +; 


所 有 的 文档 实例 必须 遵照 这 个 语法 。 已 解析 的 字符 串 实例 叫做 “p-string”。 有 了 上 述 模式 ， 
area 符号 还 是 不 能 区 别 国 家 “Chile” 和 地 区 “Patagonia”。 这 种 区 分 可 以 在 查询 时 通过 引 人 
一 小 段 语 法 片段 AreaG 来 解决 ， 它 可 以 从 area 字符 串 中 分 析出 地 区 和 国家 : 


AreaG := { area := ( region’? , ? )+ country ; 
country letter + ; 
region letter + ; } 


p-string 模型 提供 了 一 种 用 于 增加 额外 语法 片段 的 简单 查询 语言 。 给 定 文档 dj FE 
列 的 查询 会 返回 一 个 p-string， 它 包含 给 定 国家 和 地 区 的 area 元 素 : 

{area in d;) reparsed by AreaG 

这 种 结构 可 以 用 于 搜索 所 有 召开 过 SPIRE 会 议 的 智利 地 区 。p-string 模型 利用 正则 表达 
式 匹 配 作为 核心 语言 原 语 ， 它 可 以 比 XQuery MEX XQuery 更 容易 地 指定 动态 结构 。 


13.2.3 单一 层次 结构 与 多 层次 结构 对 比 


大 部 分 的 结构 化 文本 检索 模型 中 使 用 的 结构 类 型 是 分 层 组 织 方式 。 简 单 来 看 ， 使 用 隐 式 
结构 的 文本 检索 模型 可 以 认为 是 一 种 单一 层次 结构 。 当 使 用 多 层次 结构 时 ， 维 护 隐 式 的 多 层 
次 结构 要 复杂 得 多 。 

基于 显 式 结构 的 方法 假设 多 层次 结构 出 现在 同一 个 文档 中 (299, 648, 1179]. BAA 
次 可 能 为 不 同 的 目的 服务 。 例 如 一 个 层次 可 能 表示 文本 的 逻辑 层次 〈 章 、 节 、 小 节 )， 而 第 
二 个 层次 可 能 表示 布局 结构 〈 栏 、 页 )。 在 单一 层次 中 ， 结 构 元 素 要 么 不 相交 要 人 么 内 部 相互 
KE, 但 是 不 同 层次 的 元 素 之 间 可 能 部 分 重合 ， 例 如 一 个 小 节 可 能 从 某 一 页 的 中 间 开 始 到 下 
一 页 的 结尾 结束 。 层 次 结构 通常 被 称 为 “独立 标注 (stand-off annotation)”， 用 来 强调 结构 
信息 〈 或 标记 语言 ) 与 文本 内 容 是 分 别 建 模 的 。 

然而 ， 通 过 这 些 模 型 进行 查询 只 可 能 在 某 一 单一 层次 结构 中 进行 。 由 于 有 很 多 不 确定 情 
况 的 出 现 , 不 可 能 对 混合 层次 结构 进行 查询 。 也 就 是 说 ， 查 询 必 须 在 一 个 层次 结构 上 定义 ， 
然后 映射 到 其 他 层次 结构 上 。 一 个 典型 的 例子 是 定位 书 中 符合 某 个 条 件 的 结构 所 出 现 的 实际 
页 码 。 

这 种 情况 已 经 随 着 Alink 等 人 的 工作 而 改变 了 [27]， 其 中 引入 了 基于 XPath 的 导航 步 
又 ， 它 用 来 进行 一 个 层次 结构 到 另外 一 个 层次 结构 的 移动 。 例 如 ， 查 询 

$doc//paragraph[ 

./select-narrow::Verb CONTAINS "hiking" and 


./select-narrow::Region CONTAINS "Patagonia" 
] 


从 paragraph 元 素 开 始 导 航 到 另外 一 个 包含 verb TH “hiking” KEKAH., BAAS 
regionjL# “Patagonia” 的 层次 结构 。 


13.3 早期 文本 检索 模型 


现在 我 们 来 讨论 两 种 早期 的 结构 化 文本 检索 模型 ， 一 种 是 基于 非 覆 盖 列 表 (non-over- 
lapping lists) 的 模型 ， 另 外 一 种 是 基于 相 邻 结 点 (proximal nodes) 的 模型 。 这 两 种 模型 对 
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结构 化 文本 检索 中 的 主要 问题 和 需要 权衡 的 因素 提供 了 很 好 的 概述 。 

我 们 使 用 项 匹配 点 来 表示 文本 中 符合 用 户 查询 的 词 的 位 置 。 因 此 ， 对 于 用 户 输入 的 简单 
查询 “red wine”， 如 果 在 文档 d 中 有 三 个 位 置 出 现 了 ， 那 么 我 们 就 说 d 包含 三 个 项 匹配 
Ae MH, 我们 使 用 术语 “区 域 ”(region)〉 来 表示 一 段 连续 的 文本 ， 术 语 “ 结 点 ” (node) 
表示 文档 的 结构 成 分 ， 如 章 、 节 和 小 节 等 。 因 此 ， 结 点 是 文档 的 作者 和 想 要 检索 文档 集 的 用 
户 都 知道 的 、 具 有 预定 义 拓 扑 属性 的 区 域 。 


13.3.1 基于 非 覆 盖 列 表 的 模型 


Burkowski[ 298, 299] 将 每 篇 文档 的 内 容 分 市 成 多 个 非 覆 盖 的 文本 区 域 ， 并 收集 在 一 
个 列表 中 。 由 于 存在 多 种 方式 将 文本 切 分 为 非 履 盖 的 区 域 ， 因 此 会 产生 多 个 列表 。 例 如 ， 可 
以 有 由 文档 中 所 有 章 组 成 的 第 一 个 列表 ， 由 文档 中 所 有 节 组 成 的 第 二 个 列表 ， 以 及 由 文档 中 
的 所 有 小 节 组 成 的 第 三 个 列表 。 这 些 列表 分 别 保 存在 不 同 的 数据 结构 中 。 虽 然 在 同一 个 列表 
中 的 文本 区 域 是 没有 覆盖 的 ， 但 是 不 同 列表 中 的 文本 区 域 可 能 有 覆盖 。 图 13-1 给 出 了 对 于 
同一 个 文档 的 四 个 独立 列表 的 例子 。 














ly © @ 章 
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图 13-1 使 用 四 个 单独 〈 扁 平 》 的 索引 列表 来 表示 文档 中 的 文本 结构 


为 了 查找 索引 项 和 文本 区 域 ， 构 造 单一 倒 排 索 引 (inverted index) (BW 9.2 节 )， 其 中 
的 每 个 结构 成 分 都 作为 索引 中 的 一 个 条 目 。 一 个 文本 区 域 列 表 作 为 记录 列表 与 每 个 条 目 关 
联 。 此 外 ， 对 于 文本 中 的 单词 ， 这 个 列表 也 可 以 很 容易 地 与 传统 的 倒 排 索引 合并 。 因 为 文本 
区 域 是 非 履 盖 的 ， 所 以 可 以 支持 的 查询 种 类 就 很 简单 : 1) 选择 一 个 区 域 包含 某 个 词 GFA 
不 包含 其 他 区 域 ); 2) 选择 一 个 区 域 A 不 包含 任何 其 他 区 域 B (B 所 属 的 列表 与 A 的 不 
同 ); 3) 选择 一 个 不 包含 在 其 他 区 域 里 的 区 域 。 


13.3.2 ”基于 相 邻 结 点 的 模型 


Baeza-Yates 和 Navarro[1178, 1179] 提出 了 可 以 在 同一 个 文档 中 定义 独立 层次 ( 非 扁 
P) 索引 结构 的 模型 。 这 些 索引 结构 的 每 一 个 都 是 由 被 称 为 结 点 Code) 的 章 、 节 、 段 落 、 
页 、 行 组 成 的 严格 层次 结构 。 每 一 个 结 点 都 有 对 应 的 文本 区 域 。 此 外 ， 两 个 不 同 的 层次 结构 
可 能 会 指向 重 芍 的 文本 区 域 。 

给 定 一 个 涉及 不 同 层次 结构 的 用 户 查 询 ， 编 辑 后 的 结果 都 是 由 包含 在 一 个 层次 结构 中 的 
结 点 组 成 的 。 因 此 ， 结 果 不 能 由 来 自 于 两 个 不 同 的 层次 结构 的 结 点 组 成 。 这 样 是 为 了 加 快 查 
询 处 理 速度 ， 而 所 付出 的 代价 是 较 低 的 表达 能 力 。 但 是 需要 注意 的 是 ， 对 于 层次 结构 ， 在 答 
RAPP HREM RRR 〈 来 源 于 同一 个 层次 结构 )。 

图 13-2 给 出 了 一 个 层次 化 索引 结构 的 例子 ， 它 包含 四 个 层次 《同一 个 文档 中 的 章 、 节 、 
小 节 、 小 小 节 ) 和 关于 单词 “Patagonia” 的 倒 排 表 。 倒 排 表 中 的 条 目 表示 了 单词 “Patago- 
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nia” 在 文档 中 所 出 现 的 所 有 位 置 。 在 层次 结构 中 ， 每 个 结 点 包含 了 其 相关 的 结构 成 分 ( 章 、 
节 、 小 节 或 小 小 节 ) 在 文本 出 现 的 位 置 。 
章 


节 
小 节 
小 小 节 


图 13-2 ”表示 结构 成 分 的 层次 索引 和 表示 单词 的 扁平 索引 


查询 语言 可 以 使 用 正则 表达 式 来 检索 字符 串 ， 通 过 名 字 来 查询 结构 成 分 〈 例 如 检索 章 )， 
还 可 以 将 它们 进行 组 合 。 从 这 个 意义 上 说 ， 该 模型 可 以 看 成 是 表达 能 力 和 效率 之 间 的 平衡 。 
查询 语言 的 表达 能 力 在 一 定 程 度 上 受到 限制 ， 但 却 可 以 加 快 查询 处 理 ， 其 途径 是 首先 搜索 符 
合 查询 的 字符 串 成 分 的 那些 部 分 ， 随 后 再 对 这 些 部 分 是 否 符合 查询 中 的 结构 成 分 进行 评估 。 
考虑 如 下 查询 ; 

(*section) with ("Patagonia") 
检索 包含 了 单词 “Patagonia” 的 所 有 节 、 小 节 或 者 小 小 节 。 简 单 的 查询 处 理 策略 就 是 遍历 
查询 项 “Patagonia” 的 倒 排 表 ， 对 列表 中 每 个 条 目 (表示 查询 项 “Patagonia” 出 现在 文本 
中 的 位 置 )， 搜 索 层 次 索引 ， 查 找 包含 这 个 查询 的 节 、 小 节 和 小 小 节 。 

一 个 更 复杂 的 查询 处 理 策 略 如 下 。 对 于 在 “Patagonia” 列 表 中 的 第 一 个 条 目 按照 原来 
的 方法 搜索 层次 索引 。 这 就 意味 着 向 下 遍历 层次 结构 ， 直 到 没有 更 多 成 功 的 匹配 出 现 〈 或 达 
到 层次 的 底部 ) 。 将 最 后 匹配 的 结构 成 分 作为 最 内 部 的 匹配 单元 〈innermost matching com- 
ponent) 。 在 第 一 次 搜索 完成 后 ， 对 于 倒 排 表 中 接 下 来 的 条 目 并 不 是 从 头 开始 。 而 是 ， 首 先 
检查 最 内 部 的 匹配 单元 是 否 也 符合 当前 条 目 。 如 果 是 符合 的 ， 我 们 就 可 以 立即 断定 它 之 上 
(在 层次 结构 上 ) 的 结构 成 分 也 符合 要 求 。 接 下 来 ， 对 所 有 条 目 依 次 进行 上 面 的 处 理 。 需 要 
注意 的 是 查询 处 理 之 所 以 可 以 加 快 ， 是 因为 相 邻 结 点 在 一 次 检索 中 只 会 被 查找 一 次 。 这 也 是 
为 什么 叫做 “ 相 邻 结 点 ”的 原因 。 

在 基于 相 邻 结 点 的 模型 中 可 以 构造 比 基 于 非 履 盖 列 表 的 模型 更 加 复杂 的 查询 。 然 而 ， 为 
了 加 快 查询 处 理 ， 只 查看 相 邻 的 结 点 ， 而 同时 也 限定 了 查询 结果 集 (所 有 的 结 点 必须 来 源 于 
同一 个 层次 结构 ) 。 


13. 3.3 结构 化 文本 结果 排序 


绝 大 多 数 早期 结构 化 文本 检索 模型 的 检索 结果 并 没有 排序 。 直 到 2002 年 ， 随 着 开创 了 
XML 检索 评价 的 INEX 的 提出 (参见 13. 5 节 )， 这 个 局 面 才 得 到 改变 。 面 向 内 容 〈( 相 对 于 
面向 数据 ) 的 XML 检索 方法 现在 都 包含 由 查询 指定 的 、 基 于 内 容 和 结构 成 分 的 元 素 排 序 ， 
将 在 13.4.3 节 中 介绍 。 
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13.4 XML 检索 


由 于 XML 标记 语言 的 成 功 ， 如 今 XML 检索 几乎 是 结构 化 文本 检索 的 代名词 ， BR 
XML 检索 只 解决 了 显 式 的 单一 层次 结构 问题 。XML 检索 是 结构 化 文本 检索 的 一 种 特例 ， 
在 其 中 文档 的 结构 标记 使 用 XML。 虽 然 XML 检索 方法 自 20 世纪 90 年 代 末 以 来 有 了 一 定 
的 发 展 ， 但 是 主要 贡献 都 是 随 着 INEX 的 建立 而 取得 的 ， 它 提供 了 测试 集 ， 为 评价 和 比较 
XML 检索 方法 而 设立 了 专门 的 论坛 。 本 节 将 概要 性 地 介绍 在 INEX 竞赛 下 开发 和 评价 的 
XML 检索 方法 。 


13. 4. 1 XML 检索 中 的 挑战 


在 INEX 中 ，XML 检索 任务 定义 为 : 

XML 检索 任务 : 利用 XML 文档 的 层次 结构 来 确定 最 佳 的 文档 成 分 ， 即 根据 用 户 查询 
返回 最 佳 的 XML 元 素 作 为 结果 。 此 外 ， 这 些 结果 应 当 根 据 它 们 与 查询 的 相关 程度 进行 
排序 。 

我 们 讨论 在 检索 这 些 最 佳 元 素 时 所 要 面临 的 主要 挑战 。 

正如 我 们 在 第 3 章 中 所 讨论 的 ， 经 典 的 信息 检索 模型 使 用 索引 项 的 统计 信息 ， 如 文档 内 
项 频 (Term Frequency, TF) 和 反比 文档 频率 (Inverse Document Frequency, IDF) 来 对 
文档 排序 。TF 表示 的 是 索引 项 在 一 篇 文档 中 出 现 的 次 数 ， 用 来 反映 这 个 索引 项 符合 文档 主 
题 的 程度 ，IDF 表示 的 是 出 现 索 引 项 的 文档 个 数 的 倒数 ， 用 来 反映 它 在 不 同文 档 之 间 的 区 
分 度 。 

XML 检索 所 使 用 的 索引 算法 也 需要 类 似 的 索引 项 统计 信息 ， 但 却 是 在 元 素 级 。 我 们 可 
以 简单 地 通过 将 文档 替换 为 元 素 (element) 然后 计算 出 所 谓 的 元 素 内 项 频 Cwithin-Element 
Term Frequency, ETF) MARWICK (Inverse Element Frequency, IEF). Mit, AT 
XML 文档 的 伐 套 性 质 ， 这 就 带 来 一 个 问题 。 例 如 ， 假 设 一 个 节 元 素 中 包含 两 个 段落 元 素 。 
索引 项 出 现在 一 个 段落 中 就 意味 它 也 出 现在 这 一 节 中 ， 这 些 因 素 在 计算 索引 项 的 IEF 值 时 
必须 要 考虑 进去 。 为 了 解决 这 个 问题 ， 提 出 了 很 多 用 来 估计 元 素 频率 的 索引 策略 ， 我 们 将 在 
13. 4. 2 节 中 进行 讨论 。 

并 不 是 所 有 的 元 素 类 型 在 作为 查询 结果 时 都 满足 用 户 需求 。 有 些 元 素 可 能 不 适合 出 现在 
检索 结果 中 ， 或 者 因为 太 小 或 者 因为 这 些 元 素 中 不 包含 有 信息 的 文本 。 这 就 要 求 在 对 XML 
元 素 进 行 排序 时 ， 要 考虑 它们 的 大 小 和 类 型 。 哪 些 类 型 的 元 素 作 为 检索 结果 最 好 ， 以 及 如 何 
使 用 这 些 信息 来 对 元 素 进行 排序 都 是 具有 挑战 的 问题 。 例 如 ， 将 元 素 的 长 度 在 排序 时 考虑 进 
去 (参见 13.4.3 节 ) 已 经 证 明 对 提高 XML 检索 结果 很 重要 。 使 用 选择 性 索引 (selective 
indexing) 《参见 13. 4. 2 W) 和 在 排序 函数 中 使 用 参数 〈 参 见 13. 4. 3 节 ) 都 意味 着 在 XML 
检索 中 指定 特定 的 元 素 类 型 。 

XML 文档 不 仅 是 包含 了 不 同类 型 和 不 同 大 小 元 素 的 文档 ， 通 过 XML 标记 语言 的 逻辑 
结构 也 反映 了 元 素 之 间 的 关系 。 一 个 非 根 结 点 的 元 素 会 有 一 个 父 元 素 ， 父 元 素 本 身 也 可 能 还 
有 父 元 素 。 类 似 的 ， 非 叶子 结 点 的 元 素 包 含 子 元 素 和 等。 这些 元 素 之 间 的 关系 也 可 以 用 来 提高 
XML 检索 。 例 如 ， 在 科学 文献 文档 集中 ， 我 们 可 以 做 这 样 的 假设 ; 一 篇 文章 的 “摘要 ”部 
分 比 “ 未 来 工作 ”部 分 更 能 代表 这 篇 文章 的 内 容 。 在 上 下 文 方法 中 〈 参 见 13. 4. 3 节 )， 我 们 
可 以 看 到 将 根 元素 与 其 子 元 素 之 间 的 关系 纳入 到 元 素 排序 中 ， 可 以 提高 检索 性 能 ， 且 独立 于 
用 来 估计 相关 性 的 检索 模型 。 
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对 一 个 元 素 与 查询 的 符合 程度 进行 评分 的 任务 ， 与 从 多 个 重合 的 相关 元 素 中 抽取 出 作为 
答案 的 最 佳 元 素 的 任务 是 不 同 的 。 这 是 由 于 XML 文档 天 然 的 多 套 结 构 。 如 果 一 个 元 素 与 查 
询 相关 ， 那 么 它 的 父 元 素 也 会 被 认为 与 查询 相关 〈 可 能 在 不 同 程度 上 )， 因 为 这 两 个 元 素 有 
重合 的 文本 。 然 而 ， 应 当 避 免 在 返回 一 个 段落 的 同时 ， 还 返回 它 所 处 的 节 ， 导 致 让 用 户 多 次 
得 到 相同 的 信息 。 决 定 返 回 哪些 元 素 给 用 户 是 由 应 用 和 用 户 模型 决定 的 。 例 如 ， 在 INEX 
中 ， 最 好 的 元 素 不 仅 是 最 相关 的 ， 而 且 还 是 符合 主题 要 求 的 〈 即 没有 讨论 不 相关 主题 )。 在 
13. 4.4 节 中 我 们 将 会 讨论 去 除 重要 的 方法 。 

最 后 一 个 挑战 是 如 何 解释 结构 约束 。XML 检索 早期 工作 要 求 检 索 结 果 必 须 完 全 符合 查 
询 限制 。 但 是 在 查询 中 指定 结构 约束 不 是 件 容易 的 事情 ， 因 为 在 实际 中 ，XML 文档 集 包 含 
大 量 标签 名 。 用 户 不 太 可 能 对 要 检索 文档 集 的 结构 有 非常 清晰 的 认识 ， 如 果 有 的 话 往往 这 些 
方面 并 不 是 他 所 关心 的 内 容 。 因 此 ， 在 INEX 竞赛 中 将 结构 约束 看 做 是 结构 提示 ， 即 看 做 在 
哪里 〈 哪 种 元 素 ) 可 以 找到 相关 内 容 。 如 何在 对 元 素 排序 的 时 候 使 用 结构 提示 将 在 13. 4. 3 
节 中 进行 讨论 。 


13.4.2 索引 策略 


与 “扁平 的 ”文档 检索 不 同 ， 在 XML 检索 中 ， 没 有 先 验 的 (a priori) 的 固定 检索 单 
元 。 整 篇 文档 、 其 中 的 一 个 部 分 (如 其 中 某 一 章 )， 或 者 一 个 部 分 的 部 分 (如 某 一 节 中 的 一 
个 段落 ) 都 可 以 构成 一 个 查询 的 潜在 答案 。 最 简单 的 、 提 供 检索 所 有 颗粒 度 元 素 的 方法 是 ， 
对 所 有 元 素 都 建立 索引 。 因 此 ， 一 个 元 素 对 应 于 一 个 文档 传统 的 信息 检索 索引 技术 都 可 以 
使 用 。 接 下 来 ， 每 个 元 素 的 索引 项 统计 信息 (ETF 和 IEF) 都 可 以 根据 连接 元 素 及 其 后 代 
的 文本 计算 出 来 。 

关于 反比 元 素 频 率 COEF) 的 计算 ， 上 述 方法 忽略 了 购 套 元 素 的 问题 ， 即 一 个 索引 项 的 
IEF 值 要 考虑 所 有 包含 这 个 索引 项 的 元 素 以 及 这 些 元 素 的 祖先 (如 [1476]) 。 或 者 ，IEF 可 
以 跨越 同 种 元 素 (如 [1579]) 或 跨越 多 个 文档 (如 [389]) 进行 估计 。 前 面 一 种 方法 大 大 
减少 了 内 套 元 素 对 IEF 值 计算 的 影响 ， 但 并 不 能 消除 同一 类 型 的 元 素 可 以 相互 杠 套 的 影响 。 
后 面 这 种 方法 与 使 用 反比 文档 频率 相同 ， 完 全 避免 了 垦 套 元 素 。 在 [1331] 中 报告 的 实验 结 
果 表 明 在 语言 模型 框架 下 ， 相 比 基 于 元 素 的 IEF 估计 ， 跨 越 文档 方式 估计 的 IEF 的 结果 有 
微小 提高 。 利 用 BM25 概率 排序 改造 的 XML 检索 的 实验 结果 [281] 则 表明 通过 全 部 元 素 S 
估计 得 到 IEF 比 仅 通过 同类 元 素 估 计 得 到 的 IEF 结果 要 好 。 在 目前 阶段 ， 尚 不 清楚 什么 是 
最 好 的 IEF 估计 方法 ， 仍 需要 进一步 研究 。 

我 们 并 非 利 用 元 素 中 的 连续 文本 来 计算 统计 信息 ， 而 是 聚合 元 素 自身 的 文本 以 及 其 
子 元 素 的 统计 信息 来 计算 索引 项 的 统计 信息 (如 [659，1286])。 而 这 样 可 以 避免 IEF 
在 嵌 套 元 素 中 的 计算 问题 。 此 外 ， 在 聚合 中 可 以 引入 另外 的 参数 ， 如 元 素 间 的 关系 或 
者 元 素 类 型 等 。 在 13.4. 3 节 中 将 讨论 基于 聚合 的 排序 ， 即 利用 元 素 的 聚合 表示 来 对 元 
KHF. 

对 所 有 元 素 进 行 索 引 会 导致 索引 很 大 ， 且 包含 很 多 元 余 信 息 。 如 在 INEX 2002—2004 
文档 集中 包含 了 大 约 12 000 篇 文章 ， 共 计 800 万 个 元 素 ， 其 中 很 多 髓 套 在 一 起 。 男 外 一 
种 方法 是 仅 索 引 叶 子 元 素 。 这 意味 着 , 仅 对 叶子 元 素 计算 索 引 项 统计 信息 ， 接 下 来 可 以 
对 叶子 元 素 进行 排序 。 对 于 非 叶 子 元 素 的 排序 需要 传播 机 制 (propagation mechanisms) 


O 由 于 速度 原因 ， 并 没有 考虑 所 有 的 元 素 ， 但 是 大 部 分 元 素 都 考虑 在 里 面 。 
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(参见 13. 4. 3 节 ) 将 它们 子 元 素 的 得 分 汇总 起 来 [620]。 这 也 避免 了 跨越 嵌 套 元 素 计 算 
IEF 值 的 问题 ， 使 得 索引 更 容易 管理 。 但 是 ， 对 于 非 叶 子 结 点 需要 有 效 并 且 高 效 的 传播 
机 制 。 

通常 我 们 会 丢弃 掉 小 于 某 个 给 定 冰 值 〈 一 般 用 单词 数量 表示 ) 的 元 素 ， 认 为 它们 不 是 有 
意义 的 检索 单元 [1476]j。 虽 然 所 谓 的 小 元 素 不 会 被 返回 ， 但 是 在 实际 采用 传播 算法 来 计算 
非 叶子 元 素 得 分 的 方法 时 ， 它 们 仍 会 影响 那些 包含 它们 元 素 的 得 分 ， 所 以 需要 对 其 进行 索引 
[1427]。 一 个 称 为 选择 性 索引 (selective indexing) 的 相关 策略 [389，1098]， 只 对 那些 在 
过 去 的 相关 数据 中 具有 较 高 相关 性 的 元 素 类 型 进行 索引 。 

选择 性 索引 策略 [1098] 可 以 与 13. 3. 1 节 中 的 非 覆 盖 列 表 模 型 进行 对 比 。 在 它们 的 策 
略 中 ， 对 每 个 选择 出 来 的 元 素 类 型 都 单独 构建 索引 。 例 如 ， 对 于 一 个 科学 文献 文档 集 ， 这 些 
类 型 就 可 能 包括 正文 、 摘 要 、 节 、 小 节 和 段 。 对 每 一 个 索引 的 统计 信息 也 分 别 计 算 。 因 为 每 
个 索引 条 目 指向 同一 类 型 的 元 素 ， 它 们 的 索引 项 统计 信息 可 能 比 包 含 所 有 类 型 的 索引 更 均 
名 。 除 了 可 以 提供 更 一 致 的 索引 项 统计 外 ， 这 种 方法 还 在 很 大 程度 上 降低 了 甘 套 结构 带 来 的 
索引 项 统计 问题 。 在 检索 阶段 ， 查 询 可 以 并 行 运行 在 每 一 个 索引 上 ， 返 回 的 结果 列表 〈 每 个 
索引 一 个 ) 最 后 会 合并 到 一 个 结果 列表 中 。 我 们 将 在 13. 4. 3 节 中 进行 讨论 。 

目前 尚 不 清楚 哪 一 种 索引 策略 是 最 好 的 ， 因 为 很 明显 这 些 方法 取决 于 文档 集 、 元 素 的 类 
型 ( 即 DTD) 以 及 它们 之 间 的 关系 。 此 外 ， 对 于 索引 策略 的 选择 也 会 影响 到 排序 策略 。 在 
一 个 统一 的 、 可 控 的 环境 下 ， 研 究 所 有 索引 策略 来 判断 哪些 排序 策略 有 最 佳 表现 ， 将 会 是 一 
个 吸引 人 的 研究 。 


13.4.3 排序 策略 


第 3 章 介绍 的 检索 模型 大 多 都 已 经 经 过 改造 来 适应 XML 检索 。 这 些 模型 仅 基于 元 素 内 
容 来 估计 元 素 的 相关 程度 。 在 实际 问题 中 ， 特 别 「< 
对 于 长 文档 ， 利 用 从 上 下 文 元 素 〈 如 父 元 素 ) 中 | coc 
得 到 证 据 也 可 以 提高 检索 性 能 。 同 时 根据 索引 策 | <subsec> 
略 ， 需 要 传播 、 汇 聚 以 及 合并 等 特定 策略 对 各 种 | 2 MERE Patagonia ss S/P 
颗粒 度 的 元 素 进 行 排序 。 最 后 ， 对 于 内 容 - 结 构 <p> ... patagonia ... </p> 
查询 ， 必 须 处 理 结构 约束 ， 使 得 结果 既 能 满足 查 。 </subsec> 
询 的 内 容 要 求 也 能 满足 查询 的 结构 准则 。 ed T 554 
在 本 节 中 ， 我 们 通 篇 使 用 图 13-3 中 的 XML | <p>... </p> 
文档 样 例 来 进行 说 明 。 这 个 XML 文档 表示 了 一 | suse 
个 由 两 节 组 成 的 文章 。 其 中 第 1 节 包 含 两 个 小 | <sec> 
节 ， 第 1 个 小 节 中 包含 了 三 个 段落 , 第 2 个 小 节 | <p> … </p> 
中 包含 了 两 个 段落 。 第 2 节 由 四 个 段落 组 成 。 | 3 P 
图 13-4 给 出 了 这 个 样 例文 档 的 树 结构 ,为 了 能 | <p>... </p> 
够 容易 地 区 分 这 些 元 素 ， 它 们 都 给 定义 了 唯一 的 </ 355， 、 
标识 。 
1. 元 素 评分 图 13-3 XML 文档 样 例 
所 有 的 排序 策略 都 需要 利用 评分 函数 对 元 素 与 查询 间 的 相关 度 进行 评分 。 利 用 传播 机 
制 〈 本 节 的 后 半 部 分 进行 讨论 ) 的 评分 函数 只 应 用 于 叶子 结 点 ;其 他 情况 下 ， 评 分 函数 


应 用 于 所 有 可 以 检索 到 的 元 素 。 评 分 函数 通常 基于 标准 的 信息 检索 模型 ， 例如， 向 量 空 
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间 模 型 、BM25 以 及 语言 模型 ， 它 们 经 过 改造 引入 了 XML 特有 的 特征 。 例 如 ， 这 里 我 们 
介绍 如 何 将 XML 特有 的 特征 与 语言 模型 结合 。 这 个 方法 受到 Sigurbjornsson 等 人 工作 的 


启发 [1476]. 














subsec 12 


para 121 || para 122 


图 13-4 XML 样 例文 档 的 树 形 结构 


给 定 一 个 查询 Q=CRis kos wets k,), 包含 TRI k, 一 个 元 素 es 以 及 其 对 应 的 元 
素 语言 模型 M.， 元 素 根据 PCelg) 按照 降序 的 方式 进行 排序 ， 
Plelg) oc P(e) P(q|M.) 
其 中 Ple) 是 关于 元 素 e 相关 性 的 先 验 概率 ，P(q|M。) 是 根据 元 素 语 言 模 型 M. 生成 查询 的 
概率 。 利 用 多 项 语言 模型 (multinomial language model) (参见 3.5.2 47), PIM.) 可 以 
按照 如 下 方式 计算 : 


subsec 11 





para 21 | para 22 | para 23 || para 24 









para 113 


para 111 || para 112 





P(q|M.) = [[P kM.) 
k Eq 


如 果 索 引 项 的 概率 计算 使 用 3. 5. 2 节 中 介绍 的 Jelinek-Mercer 平滑 方法 ， 可 以 得 到 : 
P(k:\M_..A) = AP Cki Je) + O — a) PCR; |C) (13-1) 

其 中 Pile) BAAD k 在 元 素 e 中 的 概率 ，P(A |C) 是 查询 项 k 在 整个 文档 集中 的 概 
R, A 是 平滑 参数 。PCa |e) 是 根据 元 素 项 频 ETF 得 到 的 元 素 模 型 ，P(& |C) 是 根据 反比 
元 素 频 率 IEF 得 到 的 文档 集 模型 。 如 何 计算 这 些 概率 可 以 参见 3.5.2 节 。 

假设 查询 包含 两 个 索引 项 q 一 (wine，patagonia) 。 表 13-1 中 列 出 了 根据 样 例 XML 文档 计 
算得 到 的 查询 项 wine 和 patagonia 的 P(& |e) 值 。 内 部 元 素 的 索引 项 统计 信息 是 根据 元 素 自 己 
的 内 容 及 其 后 代 元 素 计 算得 到 的 。/erg 太 (e) 表示 元 素 e WKE, Me 中 包含 多 少 个 索引 项 。 一 
个 内 部 元 素 的 长 度 是 其 子 元 素 长 度 的 总 和 。 假 设 = 一 0.8， 表 13-1 中 列 出 了 相应 的 索引 项 wine 
和 patagonia 经 过 平滑 的 Pk: |M) fh (之 后 的 计算 需要 这 些 值 ) 。 它 们 通过 式 〈13-1) 计算 得 
到 ， 其 中 PIO 的 值 由 表 13-1 中 给 出 。 这 里 我 们 省 略 掉 了 不 包含 查询 项 的 元 素 。 这 个 工作 
也 可 以 通过 非 平滑 的 概率 完成 ， 于 是 在 这 些 元 素 e 中 P(q|M.)=0, A 13-5a 中 给 出 了 样 例文 档 
中 的 元 素 排序 列表 。 


R 13-1 XML 样 例文 档 的 P(kile)、P(ki|C)、P(ki|M。) 和 length(e) 统计 信息 





P(lwine|e) PC wine|M,) 





P(patag... |e) PCpatag... |M.) length(e) 






paralll 





parall2 0.6 0. 500 
paral13 0 0. 020 
paral21 0 0 











paral22 0 0 
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(#) 


length(e) 





para21 
para22 
para23 
para24 
subsec11 
subsecl2 
secl 


sec? 





article 


P(k: |C) 








这 里 ， 我 们 假设 了 一 个 恒定 的 先 验 相关 概率 ， 因 此 Ple) 可 以 省 略 ， 也 就 是 P(Cela)cc 
Po|M.)。 然 而 ， 在 上 面 的 语言 模型 框架 下 ，XML 特有 的 特征 可 以 通过 P(e) 引 和 人 。 例 如 ， 
考虑 XML 文档 中 元 素 大 小 的 范围 (例如 从 段落 到 文章 )， 特 别 是 在 XML 文档 集中 ， 小 元 素 
的 分 布 偏 置 会 比较 严重 (如 段落 的 数量 比 节 的 数量 多 很 多 )， 可 以 通过 如 下 方式 引入 对 于 长 
元 素 的 偏 置 [866]: 

_ length (le) 
P(e) = Dy length Ce') 


如 果 我 们 假设 2 length (e') = 400, BBA P(paral11 | q)0c15/400 X0. 0588=0. 0022, AA AR 


FEB] XML 文档 的 元 素 按照 图 13-5b HEFT 0.0588 paralll 0.0046 subsecl1 0.0361 paralll 
He, SPRATT OA, SEA MTER A OMIT Dowie GORY sh 
排序 会 靠 前 。 0.0252 para22 0.0022 paralll 0.0193 para22 

其 他 可 以 引入 语言 模型 框架 的 XML 特 00135 anice 0000 parazz 0.0135 article 

4 -个 天 + , sec’ ， ara, . sec’ 
oa ble x a pe 0.0052 parali3 0.0002 pera 0.0093 peral18 

? ”人 a) c 
之 ， 在 XML 检索 中 ， 元 素 长 度 是 重要 的 因 . wenn 

， L 4 = 图 13-5 ”不同 的 排序 方式 ，a) 用 元 素 评分 ; b) 元 

K, Si XML AE BAS RIES Tane a RETER, 

虽然 元 素 特 有 的 特征 在 估计 查询 与 元 素 的 相关 性 之 间 是 有 帮助 的 ， 但 是 结果 的 评分 通常 
情况 下 并 不 直接 用 于 产生 对 查询 元 素 的 排序 列表 。 接 下 来 ， 我 们 会 讨论 用 来 产生 最 后 的 元 素 
排序 列表 的 附加 策略 。 

2. 上 下 文 研究 法 

出 现在 某 些 类 型 元 素 中 的 索引 项 通常 构成 另外 一 些 类 型 元 素 索 引 项 的 子 集 。 例 如 ， 在 
INEX 2002—2004 文档 集中 ， 段 落 索 引 中 的 索引 项 比 文章 索引 中 的 索引 项 少 25% [1098], 
将 索引 项 词汇 表 的 这 种 变化 考虑 进去 ， 会 对 XML 检索 有 一 定 的 帮助 ， 特 别 是 按照 文档 层次 
结构 向 下 估计 元 素 相 关 性 的 时 候 (趋势 变 小 )。 可 以 通过 考虑 元 素 的 上 下 文 、 它 的 父 结 点 、 
它 的 某 些 或 者 全 部 祖先 结 点 ， 或 者 整 篇 文档 〈 根 结 点 ) 来 解决 。 

元 素 的 上 下 文 可 以 提供 很 多 元 素 是 否 关 于 什么 内 容 的 有 用 证 据 。 这 是 因为 文档 中 的 所 有 
索引 项 ， 不 论 是 否 在 这 个 元 素 中 ， 都 可 以 用 来 对 这 个 元 素 是 否 与 给 定 的 查询 相关 评分 。 比 如 
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一 个 元 素 中 不 包含 所 有 的 查询 项 ， 但 是 它 所 在 的 文档 包含 全 部 的 查询 项 ， 这 个 事实 对 于 判断 
相关 性 十 分 重要 。 这 个 策略 可 以 通过 结合 元 素 得 分 与 文档 得 分 来 实现 。 将 元 素 得 分 与 其 上 下 
文 得 分 进行 结合 的 方法 叫做 上 下 文 研究 法 。 

最 常见 的 上 下 文 方法 是 用 包含 这 个 元 素 的 文档 BAA) 作为 上 下 文 。 这 就 意味 着 将 通 
过 XML 检索 模型 得 到 该 元 素 的 得 分 与 包含 该 元 素 的 文档 的 得 分 进行 综合 。 最 简单 的 综合 方 
法 就 是 取 它 们 的 平均 值 [73]。 比 率 因 子 也 可 以 引入 进来 ， 这样 可 以 强调 一 个 得 分 比 另外 一 
个 重要 [1098]. 

我 们 将 上 下 文 方法 用 于 我 们 的 例子 中 。 图 13-5a 给 出 了 只 使 用 元 素 自身 的 评分 策略 所 估 
计 的 得 分 。 如 果 我 们 假设 元 素 和 文档 (在 我 们 的 例子 中 就 是 文章 ) 的 得 分 是 一 样 重要 ， 那 么 
最 后 排序 结果 就 如 图 13-5c 所 示 。 例 如 ，paralll 的 新 得 分 就 变 成 了 〈0. 0588 十 0. 135)/2= 
0,0361。 需 要 注意 的 是 ， 图 13-5c 与 图 13-5a 的 排序 是 一 样 的 ， 因 为 在 这 里 我 们 只 有 一 个 文 
档 ， 但 是 不 管 怎样 我 们 都 能 看 到 最 初 的 方法 和 上 下 文 方法 之 间 的 区 别 。 

一 个 元 素 的 部 分 或 者 全 部 祖先 都 可 以 用 于 上 下 文 。 例 如 父 元 素 可 以 单独 用 于 上 下 文 。 所 
有 的 祖先 元 素 一 起 也 可 以 用 于 上 下 文 [73]。 将 多 个 上 下 文 合并 起 来 需要 面 对 的 一 个 问题 是 
需要 设置 不 同上 下 文 的 权重 比例 。 机 器 学 习 方法 可 以 用 于 这 个 目标 11642). 

在 XML 检索 中 ， 使 用 元 素 的 上 下 文 来 估计 它 的 相关 性 需要 很 好 地 获得 元 素 间 的 关系 。 
特别 是 在 长 文档 中 ， 如 果 可 以 很 好 地 利用 这 些 关 系 可 以 稳定 地 提高 检索 性 能 。 

3. 传播 

在 仅 对 叶子 元 素 进行 索引 的 机 制 中 (参见 13. 4.2 节 ) 需要 用 到 传播 机 制 。 首 先 ， 叶 子 
元 素 的 得 分 通过 索引 直接 求 出 。 非 叶子 元 素 的 得 分 〈 内 部 元 素 ， 包 含 根 元 素 在 内 ) 是 通过 传 
播 机 制 估计 得 到 的 。 内 部 元 素 得 分 是 基于 它 的 后 代 元 素 的 得 分 计算 而 来 的 。 传 播 从 叶子 元 素 
开始 ， 按 照 文 档 树 结构 向 上 传播 。 

假设 e 是 一 个 非 叶子 (内 部 ) TR, a 是 e 所 包含 的 叶子 元 素 S$，g 表示 查询 ， 
score(，) 表 示 用 来 根据 元 素 相关 度 估 计 对 元 素 排序 的 得 分 肾 数 。 对 于 e:，score(e/，g) 可 以 
通过 的 索引 直接 估计 得 到 (例如 使 用 向 量 空间 模型 )， 而 score(e, gq) 则 需要 通过 传播 机 
制 计 算得 到 。 最 常见 的 传播 机 制 是 通过 对 得 分 加 权 求 和 得 到 ， 这 其 中 的 变化 就 是 对 权重 的 定 
义 和 估 计 。 

元 素 包 含 的 子 结 点 的 多 少 可 以 用 来 作为 权重 ， 例 如 ， 在 GPX 方法 中 [L620]，score(e，g) 
通过 下 式 计算 得 到 : 

score(e,g) = D(m) X > score Ce. +q) (13-2) 


其 中 e 是 e WTR, m 是 元 素 e 中 检 出 的 子 元 素数 量 〈 所 有 e WE scorele., qg)>0). 4 
果 m= 二 1(e 只 有 一 个 检 出 的 子 元 素 )，DCm) 一 0.49;， 其 他 情况 下 ，D(m) =0.99. Dem) 的 
值 叫 做 衰减 因子 (decay factor)， 它 取决 于 检 出 的 子 元 素 的 数量 。 如 果 e 只 检 出 一 个 子 元 素 ， 
那么 衰减 因子 的 值 为 0.49， 表 示 它 的 得 分 应 该 比 子 元 素 低 。 如 果 e 检 出 多 个 子 元 素 ， 那 么 
衰减 因子 的 值 为 0.99， 表 示 它 通常 应 该 比 其 子 元 素 的 得 分 高 。 因 此 ， 如 果 一 节 中 只 有 一 个 
相关 段落， 那么 它 的 相关 性 比 这 个 段落 本 身 的 相关 性 要 小 (简单 地 只 返回 这 个 段落 比 返回 没 
有 包含 其 他 信息 的 整 节 要 好 ); 如 果 一 节 中 包含 了 多 个 相关 段 ， 那 么 它 应 该 比 任何 一 个 段落 
的 排序 都 靠 前 (可 以 准许 用 户 从 返回 的 节 中 访问 这 些 段 落 )。 


O 。 和 ei 之 间 存 在 路 径 ， 其 中 et 是 这 个 路 径 的 最 后 一 个 元 素 ， 也 就 是 说 e 没有 子 元 素 。 
O ”当权 重用 子 元 素 的 数量 来 反映 时 ， 所 有 子 元素 的 权重 是 相同 的 ， 因 此 可 以 放 在 求 和 外 。 
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我 们 使 用 GPX 技术 来 举例 说 明 传 播 机 制 在 我 们 的 XML 样 例 文档 上 的 应 用 。 我 们 使 用 
如 图 13-5a 所 示 的 、 仅 使 用 元 素 评分 机 制 2 的 叶子 结 点 0.0931 subsecl1 (0.99) 0.0588 paralll 


WA. subset BASPEEK, Mma, Sol DBS p OOS et 
也 (3) 王 0.99， 因 此 score(subsecll, {wine, patago- 0.0456 secl (0.49) 0.0252 para22 
nia}) =0. 99 X (0. 0588 +0. 0300 +0. 0052) 一 0. 0931. 0.0252 barana 0 0038 elle 
排序 结果 如 图 13-6a 所 示 。GPX 传播 算法 使 得 sub- 00128 sec2 (049) 0.0052 para 
secl 的 得 分 现在 要 高 于 它 的 三 个 段落 ， 这 是 有 意义 机 h 


的 ， 因 为 这 些 段落 可 以 通过 subsecll 访问 到 。 我 们 还 图 13.6 a 使 用 GPX 传播 机 制 进 行 排 
可 以 看 到 sec2 依然 比 para22 的 排序 低 。 序 ， 衰减 因子 Dim) 在 括号 中 
距离 定义 为 从 内 部 结 点 到 叶子 结 点 间 路 径 的 长 列 出 ; b> 使 用 聚合 策略 排序 
度 ， 也 可 以 用 做 权重 。 在 XFIRM 系统 [1427] 中 ， 结果 
距离 与 上 下 文 策略 一 起 使 用 在 传播 机 制 中 。 对 于 给 定 的 查询 项 g， 内 部 元 素 e 的 简化 评分 方 
RUF: 
score(e,q) =pX mX > ate! X score(e;,q) + (1 — p) X score(root,q) (13-3) 


其 中 mx 是 e 包含 的 检 出 的 叶子 元 素 的 数量 ( 换 句 话说 ， 这 些 叶 子 元 素 e 满足 score(e ，9) 二 0)， 
dle, e) RI e Me, 在 文档 树 上 的 距离 ，score(root，q) 表示 root 元 素 关于 查询 q 的 得 分 ， 
Pp 用 来 控制 在 上 下 文 策略 中 元 素 得 分 相对 于 文档 得 分 的 重要 程度 。 

利用 传播 机 制 可 以 得 到 很 好 的 检索 性 能 ， 特 别 是 GPX 系统 所 实现 的 。 虽 然 很 简单 ， 但 
是 GPX 传播 机 制 在 INEX 竞赛 中 的 检索 任务 中 得 到 了 最 好 的 性 能 ， 体 现 了 它 对 于 XML 检 
索 的 通用 性 。 

4. BA 

聚合 是 基于 Chiaramella 等 人 在 结构 化 文档 检索 上 的 工作 [371]。 其 基本 思想 是 XML 
TR 〈 结 构成 分 ) 的 表示 可 以 看 做 其 自身 〈 如 果 存 在 的 话 ) 以 及 结构 相关 元 素 (如 果 存 在 的 
W) 的 内 容 表示 的 聚合 。XML 检索 中 常见 的 做 法 是 将 元 素 自 身 的 内 容 与 其 子 元 素 的 内 容 聚 
合 起 来 。 检索 将 基于 这 些 聚 合 起 来 的 表示 。 

元 素 自身 内 容 表 示 是 使 用 标准 的 索引 技术 生成 的 ， 其 中 聚合 函数 用 来 生成 非 叶 子 元 素 的 
表示 。 袁 合 函 数 可 以 包含 某 些 参 数 (被 称 做 加 强 因 子 (augmentation factor) [659] 或 者 可 
RERE (accessibility weight) [1379]) 来 确定 这 个 元 素 的 表示 如 何 被 子 元 素 所 影响 〈 对 
其 贡献 的 测度 ， 例 如 一 节 对 其 所 属 章 的 影响 ) 。 

为 了 说 明 XML 检索 中 的 聚合 机 制 ， 我 们 介绍 一 种 基于 (简化) 语言 模型 框架 的 方法 ， 
该 方法 受到 Ogilvie 和 Callan 工作 的 启发 [1286j。 在 这 个 框架 中 ， 每 个 元 素 都 由 一 个 语言 
模型 来 建 模 。 对 于 元 素 e， 查 询 项 &; 的 概率 根据 这 个 元 素 自身 内 容 的 语言 模型 M。 得 到 : 

PCR; |M.) = A —A) PCR; le cum) FAP Ch; |C) (13-4) 
其 中 4 是 平滑 参数 ， 用 来 控制 背景 文档 集 模型 C 的 影响 。 

在 我 们 的 例子 中 ， 只 有 叶子 元 素 包 含 自 身 内 容 ， 所 有 内 部 元 素 的 内 容 是 由 它 的 子 元 素 得 
到 的 。 如 果 我 们 假设 表 13-1 中 给 出 了 叶子 元 素 的 索引 项 统计 信息 ， 并 且 令 4 二 0.8， 那 么 
PC, |M。 ) 的 值 如 表 13-2 左 半 部 分 所 示 。 


© GPX 算法 对 叶子 元 素 使 用 了 不 同 的 评分 随 数 。 
加 RASK 13-1 中 PRIM) 的 值 相同 。 对 于 不 包含 查询 项 的 元 素 我 们 都 有 同样 的 假设 ， 比 如 对 于 这 类 元 素 设 
置 PCtlM-，) =0. 
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表 13-2 ”对 叶子 元 素 的 索引 项 统计 信息 P(k, [Mow ) 和 通过 聚合 策略 得 到 的 非 叶子 元 素 的 索引 项 统计 
WE Plk |M。)。 注 意 : 对 于 叶子 元 素 P(ki |Mom)= P(K, |Ma) 
pe P(wine | Maun) 元 素 P(wine | Maun) 
paralll | 0. 180 | subsecl1 0. 233 
0.117 
0. 105 



























Plpatagonia | Maun) 
0. 216 
0. 108 
0 


P(Cpatagonia | Moum) 
0. 327 




















叶子 | parall2 | 0. 500 
元 素 parall3 0. 020 


现在 我 们 假设 元 素 。 包含 多 个 子 元 素 e;， 每 个 子 元 素 都 包含 自身 的 语言 模型 M, ， 那 么 
聚合 函数 可 以 通过 对 这 些 语 言 模型 的 线性 插值 方法 得 到 ， 
PC |M) = >)ojP(e |M.) 























Et, Jo = 1 。 参 数 w 用 来 对 每 个 语言 模型 〈 即 子 元 素 ) 在 聚合 中 的 贡献 建 模 。 


对 于 给 出 的 样 例 ， 我 们 假设 每 个 子 元 素 的 贡献 是 相同 的 ， 意味 着 将 PIM) RAF 
TRAH. K 13-2 中 给 出 了 聚合 后 的 索引 项 统计 信息 。 例 如 ， 因 为 subsecll 包含 3 个 子 


元 素 ， 所 以 对 于 索引 项 wine 聚合 后 的 结果 为 PCwine | Ms ) =ix Co. 180 +0. 500 + 


0. 020) =0. 233， 其 中 w= 王 1/3， 因 为 我 们 假定 所 有 包含 进来 的 元 素 的 语言 模型 的 贡献 是 相 
同 的 。 

元 素 的 排序 按照 每 个 元 素 生 成 查询 的 概率 来 产生 。 我 们 可 以 使 用 与 产生 图 13-5a 的 排序 
相同 的 公式 ， 它 仅仅 是 把 查询 中 的 每 个 索引 项 的 概率 P |M) EREK. E 13-6b 中 给 出 
了 排序 结果 。 

其 他 处 理 聚 合 的 方法 包含 带 域 BM25 模型 [1057] 和 概率 模型 [659，889]j。 早 期 方法 
(没有 在 INEX 框架 下 评测 ) 包含 [967] 和 [1165]j。 聚 合 方法 中 一 个 重要 的 问题 就 是 对 于 
参数 的 估计 问题 〈 例 如 ， 对 于 上 例 中 的 w 值 的 估计 )。 

5. 合并 

某 些 为 XML 检索 开发 的 方法 ， 对 于 给 定 的 查询 ， 会 产生 多 个 不 同 的 排序 列表 ， 之 后 再 
将 它们 合并 成 一 个 排序 表 ， 并 返回 给 用 户 [177，980，1098] 。 

[1098] 介绍 的 方法 使 用 选择 性 索引 策略 (参见 13. 4. 2 节 )， 对 于 每 种 类 型 的 元 素 单 独 
建立 索引 例如， 对 于 一 组 科研 论文 ， 这 些 元 素 类 型 包括 正文 、 摘 要 、 节 和 段落 )。 我 们 假 
设 检 索 模 型 在 每 个 索引 中 对 元 素 进 行 排序 。 对 于 每 个 索引 会 产生 不 同 的 排序 列表 。 为 了 将 这 
些 列 表 合 并 起 来 ， 需 要 在 归 一 化 时 考虑 不 同 索 引 中 元 素 大 小 的 变化 〈 例 如 ， 段 落 索 引 和 正文 
索引 ) 。 为 了 这 个 目的 ， 每 个 索引 求 出 score(g，9) ， 它 表示 当 一 个 与 查询 相同 的 元 素 出 现在 
文档 集中 时 查询 的 得 分 。 对 于 每 个 索引 ， 元 素 的 得 分 会 根据 score(q, g) 进行 归 一 化 ， 于 是 
与 查询 完全 相同 的 元 素 的 得 分 就 是 满分 1。 这 就 保证 了 根据 不 同 的 索引 所 得 到 的 分 数 可 以 比 
较 ， 也 就 使 得 元 素 可 以 通过 归 一 化 分 数 进行 合并 。 

假设 对 于 样 例文 档 的 每 个 索引 《段落 、 节 、 子 节 和 篇 章 ) ， 利 用 检索 算法 得 到 的 《虚构 ) 
分 数 如 表 13-3 所 示 。 同 样 对 于 每 个 索引 我 们 给 出 了 score(g，g) RED 得 分 ， 如 果 我 们 
使 用 


score (esq) 
m 一 一 一 一 一代 
ax( score (qq) ) 


来 对 得 分 进行 归 一 化 ， 所 得 到 的 新 得 分 如 表 13-3 中 括号 中 的 部 分 所 示 。 
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表 13-3 对 于 每 个 索引 的 元 素 得 分 ， 归 一 化 后 的 得 分 在 括号 中 





paralll] 0.4 (0.5) subsecll 0.6 (0. 857) 
parall2 0.3 (0.375) 


para 113 0.2 (0.25) 




















para22 0.5 (0. 625) 
score(q, g)=0.8 score(q, g)=0.7 
PRS 篇 章 索 引 
secl 0.4 (0.513) article 0.3 (0. 448) 
sec2 0.2 (0. 256) 
score(q, q)=0. 78 score(q, qg)=0. 67 
6. 处 理 结构 约束 


在 INEX 中 ， 结 构 约 束 可 以 看 做 是 从 哪里 可 以 找到 有 用 信息 的 提示 。 这 种 观点 的 原因 
包含 两 个 方面 。 首 先 ， 大 家 都 知道 信息 检索 系统 的 用 户 不 是 总 能 ， 或 者 说 大 多 数 情况 下 
都 不 能 很 好 地 表达 他 们 的 信息 需求 。 这 样 的 困难 同样 也 存在 于 信息 需求 的 结构 准则 上 。 
例如 ， 用 户 想 找 一 个 包含 给 定 主题 的 段落 ， 但 是 他 可 能 没有 意识 到 关于 这 个 主题 的 有 用 
信息 分 散 于 多 个 段落 中 ， 但 是 它们 都 属于 同一 节 。 这 种 情况 下 ， 返 回 这 一 节 内 容 比 单独 
的 段落 要 有 用 得 多 。 

HEK., XML 信息 检索 研究 界 普遍 坚信 ， 在 通常 情况 下 ， 满 足 内 容 需 求 比 满足 结构 要 求 
更 重要 。 比 如 ， 如 果 用 户 希望 找到 包含 特定 主题 的 一 节 内 容 ， 但 是 返回 的 是 最 满足 内 容 需 求 
的 摘要 部 分 ， 对 于 用 户 来 说 仍然 是 可 以 接受 的 。 在 XML 检索 中 ， 某 些 针 对 处 理 结构 约束 的 
方法 也 都 遵循 这 个 观点 。 

第 一 种 方法 是 构建 一 个 标签 同义词 赐 。 这 个 字典 可 以 是 基于 名 法 的 。 例 如 ， 如 果 <<p> 对 
应 段落 类 型 ，<pl> 对 应 一 组 段落 中 的 第 一 个 ， 那 么 将 <p> 和 <<pl> 看 做 等 价 的 标签 是 符合 
逻辑 的 [1097，1426]。 词 典 也 通过 处 理 过 去 的 相关 性 数据 获得 [1127]。 比 如 ， 如 果 在 这 样 的 
数据 集中 ， 一 个 查询 限定 查找 二 section 之 类 的 元 素 ， 那 么 所 有 标记 为 与 查询 相关 的 元 素 类 型 ， 
ae Sea <sectin> HES Hr. All, HUA TK. MRAWAR A<section>, AA 
所 有 在 字典 中 定义 为 与 其 同 义 标签 的 元 素 ， 就 与 一 section 盖 类 元 素 没有 区 别 。 如 果 这 些 元 素 的 
内 容 符合 要 求 ， 那 么 它们 也 可 以 作为 答案 返回 。 

第 二 种 方法 是 结构 增强 (structure boosting)， 这 种 方法 中 首先 忽略 查询 中 的 结构 约束 
而 对 元 素 进行 评分 ， 接 下 来 通过 元 素 在 多 大 程度 上 符合 结构 约束 来 提高 元 素 的 得 分 。 元 素 的 
结构 与 查询 结构 进行 对 比 ， 根 据 符合 的 程度 来 产生 结构 得 分 。 例 如 ， 可 以 比较 路 径 L333， 
1579]， 或 者 比较 路 径 上 的 标签 [1626]。 下 面 我 们 给 出 一 个 例子 。 

考虑 使 用 NEX 查询 语言 (参见 13. 6. 3 节 ) 的 内 容 -结构 查询 9， 用 来 查找 包含 关于 
wine 的 文章 中 的 关于 Patagonia HA: 

//article[about(., wine)]//sec[about(., patagonia) ] 

这 个 查询 可 以 切 分 为 两 个 独立 的 子 查询 ql= //article[about (.,wine) ] UA q2= //sec 
[about (.,patagonia) |, 

两 个 子 查 询 分 别 进 行 处 理 。 我 们 先 来 处 理 92。 根 据 表 13-1 中 给 出 的 项 统计 信息 ， 将 元 

素 评分 策略 用 于 子 查询 q2 中 ， 我 们 可 以 到 如 表 13-4 所 示 的 内 容 检索 得 分 。 需 要 注意 的 是 ， 


562 





563 


564 
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它们 与 在 表 13-1 中 给 出 的 PCpatagonia|M.) 值 相对 应 。 我 们 将 这 些 基 于 内 容 的 得 分 记 做 
c_score。 表 13-4 中 也 给 出 了 表示 与 section 元 素 符合 程度 的 每 种 元 素 类 型 的 结构 得 分 ， 记 做 
3_score。 在 我 们 的 例子 中 section TRicn<sec>, MHRA A <para>. <sub- 
sec>, <‘sec> #l<article>, FAX HBA A WR, <subsec> 5<sec>HWACHREK 
<para> 5<sec> MAA REEE RNBREFT AA ES By ct FIM q2 进行 
增强 : 
b_score(e,gq2) = 0.8 Xe score(e,qg2)++0.2 Xs_scorele,sec) 

这 意味 着 我 们 认为 内 容 得 分 的 重要 程度 要 大 于 结构 得 分 。 因 为 q2 是 要 查找 section 元 素 ， 那 
ATR e Hit s_score(e, sec) 来 增强 。 表 13-4 给 出 了 增强 后 的 结果 b_score, WM, WT 
paralll, c_score(paralll, q2)=0.327, s_score( para, sec)=0.4, ABA b_score( paralll, 
q2)=0. 8X0. 327+0.2X0.4=0. 341, 


R 13-4 ”对 于 子 查询 92 的 内 容 检索 得 分 c_score ， 内 容 -结构 得 分 b_score ， 以 及 结构 得 分 s_score 







元 素 
paralll 


c_score b_score 元 素 c_score b_score 
0. 327 0. 4 secl 0.170 

0. 261 0. 4 article 0.111 。 0. 378 
0. 233 0.6 





$_score 









paral 13 





subsecl 1 


对 于 查询 ql1， 为 了 简化 起 见 ， 我 们 只 考虑 将 article 元 素 作 为 结果 ， 即 我 们 假设 对 结构 
约束 进行 严格 的 解释 。 这 就 相当 于 对 于 所 有 非 article UH e, s_score(e, article) 二 0。 
现在 对 于 完整 的 检索 gq， 我 们 和 需要 将 通过 检索 q2 得 到 每 个 元 素 的 增强 得 分 ,与 通过 检 
R ql 得 到 的 篇 章 增强 得 分 进行 合并 。 可 以 按照 如 下 方式 进行 定义 : 
s_score(e,q) = b_score(e,q2) X b_score (article ,ql1) 


根据 表 13-1， 我 们 可 以 得 到 c_score(article, gli)=0.122 (E45 PCwine| Monica) 相符 


@), EH b_score (article, q1) 相同 。 图 13-7a 给 出 了 排 0.0459 article 0.0588 paralll 
序 后 的 元 素 列表 。 0.0400 fect 00252 barea2 

这 里 ， 一 个 重要 的 问题 就 是 确定 不 精确 匹配 的 实际 程 0.0873 subeecl1 。 00052 paras 
E 根据 结构 约束 可 以 提供 多 少 提示 )。 在 我 们 的 例子 中 ， OR b 


这 个 可 以 变换 为 我 们 如 何 设置 结构 得 分 s_score。 、 

这 里 介绍 的 技术 都 在 INEX 环境 下 进行 了 评价 ， 其 中 BST BBA BES 
元 素 是 否 相关 都 是 仅 基于 内 容 进 行 评 价 的 。 此 外 ， 通 过 仔 的 结果 
细 研 究 这 些 实际 的 结构 约束 ， 可 以 发 现 它们 并 不 是 真正 的 
提示 [1601]。 虽 然 一 个 查询 要 求 查找 一 节 ， 但 是 这 并 不 能 说 明 ， 在 相关 数据 集中 ， 节 元 素 
就 一 定 比 符合 查询 内 容 要 求 的 其 他 类 型 元 素 好 。 另 外 ， 结 构 信 息 并 不 是 总 能 提高 检索 性 能 ， 
除非 在 很 靠 前 的 排序 中 。 这 个 多 少 令 人 有 些 失 望 的 结果 ， 也 可 能 是 由 于 评价 方法 的 原因 造 
成 的 。 


13.4.4 REK 


XML 检索 系统 的 目的 是 对 于 用 户 给 定 的 查询 ， 返 回 最 相关 的 元 素 。 当 一 个 元 素 对 于 给 
定 的 查询 被 估计 为 相关 的 时 候 〈 不 论 通 过 本 章 介 绍 的 什么 XML 排序 策略 )， 它 的 祖先 元 素 
也 可 能 会 被 估计 为 与 查询 相关 〈 虽 然 程 度 不 同 )。 此 外 ， 这 个 元 素 很 可 能 包含 一 些 也 会 被 佑 
计 为 相关 的 后 代 元 素 (虽然 是 在 不 同 的 程度 上 )。 这 是 由 于 XML 文档 的 嵌 套 结构 所 导致 的 ， 
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一 段 相 辐 的 文本 会 出 现在 一 个 路 径 上 的 不 同 元 素 中 。 因 此 ， 元 素 自 身 、 它 的 祖先 以 及 一 部 分 
后 代 元 素 都 会 包含 在 结果 列表 中 ， 最 终 会 导致 大 量 的 重复 信息 返回 给 用 户 。 在 13. 4. 3 节 的 
很 多 排序 结果 中 可 以 清楚 地 看 到 这 一 点 。 

返回 重复 的 信息 〈 即 重 着 的 元 素 ) 已 经 证 明 会 使 用 户 感觉 混乱 [1592]。 在 用 户 不 喜欢 
或 者 不 希望 看 到 同样 的 信息 多 次 出 现 的 检索 场景 中 ， 需 要 确定 哪些 相关 但 是 重 伙 的 元 素 是 要 
返回 的 ， 这 就 是 我 们 要 讨论 的 问题 。 

第 一 种 方法 是 直接 从 XML 检索 系统 返回 的 初始 排序 列表 中 将 重 释 元 素 去 除 。 最 常见 的 
去 除 方法 〈 称 为 蛮 力 过 滤 brute-force filtering) 是 在 排序 列表 中 选择 得 分 最 高 的 元 素 ， 然 
后 删除 它 的 祖先 和 后 代 中 得 分 较 低 的 元 素 。 这 个 过 程 和 迭代 进 行 ， 它 依赖 于 检索 的 排序 策略 ， 
即 在 重生 的 元 素 中 ， 哪 些 元 素 应 该 被 赋予 比较 高 的 排序 。 

我 们 将 这 种 方法 用 于 对 图 13-5a 进行 排序 ， 以 生成 如 图 13-7b 所 示 的 不 包含 重合 的 结 
果 。 如 果 我 们 从 如 图 13-6a 所 示 的 排序 列表 开始 ， 那 么 会 得 到 不 同 的 结果 。 但 是 请 注意 ， 所 
有 这 些 最 初 的 排序 都 不 适合 产生 最 相关 但 非 重 全 结果 这 一 目的 。 因 此 ， 很 多 方法 在 产生 非 重 
BERN SET MAHA, mM (389, 1099, 1127, 1291], 

例如 ， 在 [1099] 中 介绍 的 方法 ， 在 对 元 素 评 分 时 考虑 到 它们 在 XML 文档 树 结构 上 的 
分 布 。 例 如 ， 如 果 一 个 元 素 的 很 多 后 代 元 素 都 被 检索 出 来 ， 但 是 它们 均匀 分 布 在 相应 树 结构 
中 ， 并 且 与 其 父 结 点 得 分 相近 ， 那 么 会 选择 父 元 素 一 一 因为 ， 可 以 从 选择 出 来 的 元 素 访问 它 
的 相关 后 代 结 点 ; 其 他 情况 下 会 选择 它 的 后 代 元 素 本 身 来 进行 处 理 。 

对 于 我 们 给 出 的 样 例 ， 从 图 13-5a 所 示 的 排序 出 发 ， 这 种 方法 会 选择 由 subsecll 和 
para22 构成 非 重 秋 的 结果 。 因 为 从 subsecll 可 以 访问 到 所 有 的 段落 ， 而 para22 是 sec2 中 唯 
一 包含 相关 信息 的 元 素 ， 只 返回 这 一 个 段落 更 加 合理 。 

总 之 ， 在 去 除 重生 的 技术 中 ， 直 接 考 虑 文档 树 结构 的 方法 会 比 不 考虑 树 结构 的 方法 要 
好 。 然 而 ， 因 为 重合 去 除 过 程 是 在 查询 阶段 进行 的 ， 所 以 处 理 速 度 是 一 个 问题 ， 这 就 要 求 方 
法 不 仅 有 效 ， 而 且 还 要 高 效 。 原 始 结果 列表 对 重 全 去 除 策略 影响 的 研究 是 一 个 吸引 人 的 问 
题 。 很 多 迹象 表明 ， 好 的 初始 结果 列表 会 带 来 更 好 的 非 重 倒 结果 列表 。 


13.5 XML 检索 评价 


随 着 XML 成 为 结构 化 文档 的 标记 语言 ， 以 及 与 TREC (参见 4.4. 1 节 ) 等 价 的 、 用 于 
XML 检索 性 能 评价 的 INEX 评测 的 创建 ， 结 构 化 文本 检索 的 研究 显著 增多 。 

在 传统 的 信息 检索 评价 中 ， 文 档 被 看 做 是 独立 和 分 离 的 单元 。 然 而 ，XML 检索 准许 
检索 文档 的 各 个 部 分 ， 而 同一 篇 文档 中 的 各 个 部 分 不 能 看 做 是 独立 的 单元 。 此 外 ， 当 准 
许 检 索 任意 元 素 时 ， 我 们 必须 还 要 进一步 考虑 元 案 间 的 重合 。 原 因 是 ， 如 果 我 们 检索 了 
一 个 完整 的 、 包 含 很 多 段 的 节 作 为 一 个 元 素 ， 之 后 我 们 又 检索 了 包含 在 这 一 节 中 的 某 一 
段 作为 第 二 个 元 素 ， 那 么 用 户 就 会 得 到 重复 的 信息 。 这 就 意味 着 检索 得 到 的 元 素 不 能 当 
做 分 离 的 单元 。 

根据 这 些 结构 化 文本 所 特有 的 性 质 ， 对 XML 检索 系统 的 评价 在 构建 测试 文档 集 时 ， 其 
评测 范式 所 遵循 的 标准 ， 需 要 考虑 固有 的 结构 约束 ， 即 元 素 间 的 结构 关系 。INEXS (The 
Initiative for the Evaluationof XML retrieval) 建立 了 包含 大 规模 测试 集 和 相应 测度 的 基础 





© INEX 是 由 DELOS 举办 ， 它 是 一 个 专注 于 数字 图 书馆 领域 的 欧盟 网 络 。 关 于 INEX 在 2007 年 以 前 的 信息 可 以 访 
fa] http; //inex. is. informatik. uni-duisburg. de/ 2008 年 之 后 的 信息 可 以 访问 http: // www. inex. otago. ac. nz/ 。 
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设施 ， 用 于 评测 XML 检索 性 能 ， 这 就 是 我 们 这 里 要 讨论 的 。 


13.5.1 文档 集 


在 2004 年 之 前 ，INEX 使 用 的 文档 集 包含 12 107 篇 使 用 了 XML 标记 的 文章 ， 它 们 是 
从 12 本 杂志 和 IEEE 计算 机 学 会 的 6 本 期 刊 上 收集 来 的 ， 时 间 跨 度 是 1995—2002 年 ， 文 档 
集 大 小 是 494MB， 包 含 800 万 个 元 素 。 平 均 下 来 ,每 篇 文章 包含 1532 个 XML 结 点 ， 每 个 
结 点 的 平均 深度 是 6.9, 2005 年 ， 文 档 集 又 从 IEEE 计算 机 学 会 的 出 版 物 中 进一步 扩充 了 一 
些 。 总 共 4712 篇 自 2002 一 2004 年 的 新 文章 加 入 了 进来 ， 扩 展 后 总 共 包 含 16 819 篇 文章 ， 文 
档 集 大 小 也 扩展 到 764MB, 包含 1100 万 个 元 素 。 

从 2006 年 起 ，INEX 使 用 了 新 的 文档 集 ， 它 是 从 Wikipedia? 上 抽取 的 英文 文档 
L493]。 这 个 文档 集 包 含 使 用 XML 标记 的 659388 篇 从 Wikipedia 中 选 出 来 的 文章 ， 文 
档 集 的 大 小 超过 60GB 〈 不 包含 图 片 的 大 小 是 4. 6GB)， 其 中 包含 5200 万 个 元 素 。 文 档 
集 的 结构 与 IEEE 文档 集 的 结构 基本 相同 。 每 篇 文章 平均 包含 161. 35 个 XML 结 点 ， 每 
个 元 素 的 平均 深度 是 6. 72 。 这 个 文档 集 包 含 更 丰富 的 标签 类 型 (1241 个 不 同 的 标签 ， 
而 IEEE 文档 集中 只 有 176 个 )， 并 且 包 含 大 量 的 交叉 引用 Ceross-reference) (标记 为 
XLink) , 


13.5.2 ”主题 


在 13.6 节 中 我 们 提 到 ， 一 个 XML 查询 既 可 以 包含 内 容 也 可 以 包含 结构 。 将 这 个 因素 
考虑 进去 ，INEX 定义 了 两 种 类 型 的 主题 : 

。 内 容 (Content-Only, CO) 主题 ， 仅 将 信息 需求 进行 描述 ， 忽 略 文档 的 结构 ， 在 某 

种 意义 上 ， 与 应 用 于 信息 检索 测试 集 的 传统 主题 类 似 。 在 INEX 中 ， 这 类 主题 的 检 
索 结 果 包 含 多 种 多 样 的 元 素 ， 元 素 属 于 XML 文档 结构 的 不 同 层次 。 

。 内 容 -结构 (Content-and-Structure, CAS) 主题 ， 这 类 主题 对 所 需 元 素 的 内 容 和 
结构 信息 进行 描述 。 这 些 描述 可 能 是 指 特定 的 元 素 内 容 ( 例 如， 要 返回 的 元 素 
必须 包含 有 关 特 定 主题 的 节 )， 或 者 可 能 要 指定 返回 元 素 的 类 型 (例如 ， 要 返回 
的 节 ) 。 

CO 和 CAS 主题 反映 了 对 文档 集结 构 具 有 不 同 层次 理解 的 用 户 搜索 相关 信息 的 过 程 。 
没有 文档 结构 知识 或 者 不 使 用 结构 知识 的 用 户 采 用 CO 主题 。 搜 索 XML 文档 集 的 大 多 数 用 
户 属于 这 一 类 。CAS 主题 适合 于 希望 利用 文档 结构 知识 来 提高 检索 质量 的 用 户 。CAS 主题 
更 符合 专业 用 户 ， 例 如 图 书馆 员 或 专利 检索 人 员 等 2 。 

45 TREC 类 似 ，INEX 主题 由 标题 、 描 述 和 和 叙述 三 个 标准 域 组 成 。 对 于 CO 主题 来 说 ， 
标题 包含 一 组 查询 项 。 对 于 CAS 主题 来 说 ， 标 题 使 用 NEXI 来 表示 ， 它 是 基于 一 种 基于 路 
4209 XML 查询 语言 (参见 13.6.3 节 ) 。 

2005 Æ, CO 主题 扩展 为 仅 考 虑 内 容 十 结构 (Content-Only 十 Structure，CO 十 S) WA 
x, CO+S 主题 包含 一 个 CAS 标题 (<castitle>) 域 ， 它 不 仅 表示 CO EM HE<title>M 
中 描述 的 相同 信息 需求 ， 还 利用 结构 约束 加 入 了 更 多 的 知识 。CAS 主题 使 用 NEXI 查询 语 
言 表示 。 图 13-8 给 出 了 一 个 CO 十 S 主题 的 例子 。 





© http; //en. wikipedia. org, 
© ”CAS 主题 也 可 以 用 来 作为 相关 反馈 处 理 的 结果 ， 生 成 不 仅 包 含 查询 项 ， 而 且 还 包含 结构 约 东 的 新 查询 〈 例 如 
[1436]). 
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<inex_topic topic_id="231" query_type="CO0+5"> 

<title>Markov chains in graph related algorithms</title> 

<castitle> 
/faxticle//sec[about(., +"markov chains" +algorithm +graphs)] 

</castitle> 

<description>Retrieve information about the use of markov 

chains in graph theory and in graphs-related algorithms. 

</description> 

<narrative>I have just finished my Msc. in mathematics, in 
the field of stochastic processes. My research was in a subject 
related to Markov chains. My aim is to find possible 
implementations of my knowledge in current research. I’m mainly 
interested in applications in graph theory, that is, algorithms 
related to graphs that use the theory of markov chains. I’m 
interested in at least a short specification of the nature of 
implementation ({\em e.g.} what is the exact theory used, and to 
which purpose), hence the relevant elements should be sections, 
paragraphs or even abstracts of documents, but in any case, 
should be part of the content of the document (as opposed to, 
say, vt, or bib). 

</narrative> 

</inex_topic> 


























13-8 INEX 2005 测试 集中 的 一 个 CO 十 S 主题 


13.5.3 检索 任务 


XML 检索 与 传统 的 扁平 文档 检索 最 大 的 不 同 就 是 ，XML 检索 系统 不 仅 要 对 每 个 元 素 
与 查询 的 相关 程度 进行 评分 ， 而 且 还 要 确定 返回 给 用 户 的、 合适 的 元 素 颗 粒度 水 平 。 在 
INEX 中 ， 相 关 元 素 的 定义 是 在 合适 的 可 粒度 下 ， 如 果 它 论述 了 用 户 查 询 所 需要 的 所 有 主题 
(对 查询 来 说 是 穷尽 的 )， 并 且 它 没有 论述 其 他 主题 (对 于 查询 来 说 它 是 专 一 的 ) RNE 
13.5.4 节 中 介绍 穷尽 性 和 专 一 性 ) 。 
直到 2004 年 ， 在 INEX 中 ，XML 检索 系统 的 任务 都 是 对 于 用 户 查 询 返 回 最 相关 的 
XML 元 素 而 不 是 整个 文档 ， 即 最 专 一 并 穷尽 的 。 换 名 话说 ，XML 系统 需要 返回 包含 尽 可 
能 多 的 相关 信息 和 尽 可 能 少 的 不 相关 信息 的 部 分 。 在 这 样 的 一 般 性 任务 下 ， 可 以 定义 如 下 两 
个 子 任务 : 
” CO 子 任务 ， 使 用 CO 主题 ， 有 效 的 XML 检索 系统 能 够 得 到 最 专 一 的 元 素 ， 并 且 只 
包含 与 所 需 主 题 相关 的 内 容 。 
°. CAS 子 任务 ， 使 用 CAS 主题 ， 有 效 的 检索 系统 能 够 检索 出 与 主题 需求 相关 的 、 最 专 
一 的 文 梢 部分， 并 且 以 严格 或 者 近似 CH) 的 程度 匹配 查询 中 的 结构 约束 。 它 包 
会 两 个 子 CAS 任务 : 
O SCAS 子 任务 “严格 的 内 容 -结构 )， 对 于 结构 约束 进行 严格 的 解释 。2002 年 
和 2003 年 ， 对 这 个 子 任务 进行 了 研究 。 
O VCAS 子 任务 (模糊 的 内 容 - 结 构 )， 对 于 这 个 任务 ，XML 检索 系统 的 目标 并 不 
是 返回 严格 符合 结构 约束 的 元 素 ， 但 是 路 径 约 束 在 查找 相关 内 容 时 会 作为 提示 。 
这 个 子 任务 是 在 2003 年 提出 来 的 ， 接 下 来 从 2004 年 开始 ，CAS 任务 只 包 
含 这 个 子 任务 。 指 定 信息 需求 不 是 件 容 易 的 事情 ， 特 别 是 在 XML 文档 包含 大 
BREA 〈 元 素 类 型 ) 的 情况 下 ， 因 此 SCAS 被 认为 是 不 太 切 合 实际 的 任务 。 
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在 CO 或 CAS 等 一 般 性 任务 中 ， 并 没有 考虑 检 出 元 素 间 的 实际 关系 ， 许 多 系统 返回 了 
相互 覆盖 的 元 素 (RACH). Blan, Æ INEX 2004 CO 子 任务 中 ， 前 10 名 的 系统 包含 
70% 一 80%% 的 重 登 元 素 。 这 与 有 效 性 的 评价 方法 〈 参 见 13. 5. 5 节 ) 是 十 分 相关 的 ， 如 果 一 
个 方法 试图 更 聚焦 一 些 〈 例 如 两 个 嵌 套 的 元 素 ， 只 返回 最 专 一 的 那个 )， 那 么 它 的 得 分 就 会 
变 差 。 因 此 ，2005 年 定义 了 如 下 两 个 子 任务 : 

。“ 聚 焦 ” 子 任务 ,， 它 的 目标 是 使 得 系统 在 给 定 文档 的 一 条 路 径 中 发 现 最 穷尽 和 最 专 一 

的 、 包 含 相 关内 容 的 元 素 ， 作 为 最 合适 的 检索 单元 返回 给 用 户 。 不 允许 有 重 倒 元素 
返回 。 

。“ 全 面 ” 子 任务 ， 它 用 来 作为 INEX 的 初始 任务 ， 即 到 2004 年 大 多 数 系 统 都 完成 的 

部 分 9 。 

有 了 这 两 个 子 任务 ， 就 有 可 能 更 好 地 对 XML 检索 方法 针对 给 定 查询 所 估计 的 元 素 相 关 
性 进行 评价 ， 而 XML 检索 方法 的 目标 就 是 对 于 给 定 的 主题 ， 找 到 合适 颗粒 度 的 相关 内 容 返 
回 给 用 户 。 这 两 个 子 任务 都 可 以 使 用 CO 和 CAS 主题 。 对 于 后 者 ， 结 构 约 束 中 还 引入 了 模 
糊 解 释 ， 即 VCAS 子 任务 。 


13.5.4 ”相关 性 


在 主要 词典 中 ， 相 关 性 的 含义 定义 为 “与 手头 的 事情 有 关 ”。 在 传统 的 文档 检索 中 ， 相 
关 性 通常 理解 为 检 出 的 条 目 与 用 户 查询 间 的 联系 。 在 XML 检索 中 ， 检 出 的 条 目 与 用 户 查询 
间 的 关系 更 复杂 ， 还 需要 考虑 文档 的 结构 。 因 为 检 出 的 元 素 可 以 在 所 有 颗粒 度 等 级 上 ， 所 以 
一 个 元 素 和 它 的 子 元 素 都 可 以 与 给 定 的 查询 相关 ， 但 是 子 元 素 比 它 的 父 元 素 可 能 更 聚焦 在 查 
询 的 主题 上 ， 父 元 素 可 能 包含 其 他 不 相关 的 内 容 。 在 这 种 情况 下 ， 子 元 素 比 它 的 父 元 素 更 适 
合作 为 检 出 的 元 素 ， 因 为 它 不 仅 与 查询 相关 ， 而 且 是 特别 针对 查询 的 。 

为 了 适应 专 一 性 ，INEX 将 相关 性 定义 为 如 下 两 个 方面 : 

。 穷尽 性 ， 用 来 衡量 一 个 元 素 反 映 用 户 需 求 主题 的 完善 程度 。 

。 专 一 性 ， 用 来 衡量 一 个 元 素 是 否 只 聚焦 于 所 需 主题 的 程度 〈 而 不 是 其 他 无 关 主 题 ) 。 

此 外 ， 多 级 尺度 也 是 需要 的 ， 以 便 明确 表示 一 个 元 素 与 其 子 元 素 相 比 ， 讨 论 某 个 主题 的 
穷尽 程度 。 例 如 ， 一 节 中 包含 两 个 相关 段落 ， 则 可 能 认为 比 其 中 任何 一 个 单独 段落 都 更 相 
关 。 用 二 值 表示 的 相关 度 不 能 反映 这 种 不 同 。 和 穷尽 性 一 样 ， 专 一 性 也 需要 用 多 级 尺度 进行 
描述 ， 这 样 可 以 奖励 有 能 力 选择 最 合适 〈 精 确 ) 大 小 元 素 的 检索 系统 。 例 如 ， 能 够 确定 书 中 
哪 一 节 相 关 的 检索 系统 ， 比 只 能 确定 哪 一 章 相 关 的 系统 要 更 有 效 些 。 因 此 INEX 对 于 穷尽 性 
和 相关 性 使 用 了 四 级 相关 性 尺度 :“ 不 相关 ”、“ 边 缘 ”、“ 相 关 ” 和 “非常 相关 ”。 穷 尽 性 和 专 
一 性 的 结合 ， 以 及 它们 的 分 级 尺度 ， 使 得 有 可 能 发 现 那些 既 穷 尽 又 专 一 的 相关 元 素 ， 因 此 可 
以 将 最 合适 的 单元 返回 给 用 户 。 

评审 人 员 作 为 INEX 的 参与 者 ， 每 年 都 通过 在 线 相关 性 评估 工具 来 提供 相关 性 评估 
[1278]。 与 TREC 一 样 ， 采 用 聚合 方法 (pooling method) 选择 需要 被 评估 的 元 素 。 在 2003 
年 和 2004 年 ， 在 线 评估 工具 会 显示 文档 及 其 要 评估 的 元 素 。 评 审 人 员 对 每 个 元 素 确定 一 个 
相关 度 值 。 有 些 实施 规则 确保 相关 元 素 会 被 评估 例如， 如 果 一 个 在 池 中 的 元 素 被 确定 为 相 
关 元 素 ， 那 么 它 的 父 元 素 和 后 代 元 素 都 会 被 加 入 到 池 中 ， 因 为 它们 很 可 能 是 相关 的 ， 不 过 是 
在 不 同 的 程度 上 )， 也 确保 相关 性 元 素 的 赋值 在 合理 的 范围 内 例如 ， 一 个 元 素 被 确定 为 相 


© INEX 中 还 定义 了 一 些 其 他 的 任务 ， 感 兴趣 的 读者 可 以 参考 [968]。 
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关 ， 那 么 它 的 穷尽 性 程度 一 定 不 会 大 于 它 的 父 元 素 )。 但 是 到 了 INEX 2004， 实 施 规 则 已 变 
得 过 于 苛刻 ， 成 为 评估 的 阻碍 。 

由 于 引入 了 简化 的 评估 程序 ， 情况 在 2005 年 得 以 改变 。 需 要 评估 的 元 素 依然 会 显 
Se aa 而 不 是 对 每 个 元 素 的 相关 性 进行 判 
断 。 同 时 ， 也 引入 了 加 亮 方法 CLA 13-9) ， 使 得 相关 性 评估 更 加 自然 和 非 侵入 式 ， 从 而 得 
到 了 更 高 质量 的 评估 结果 [1279]。 


User demo | Links | Pool | X-Ral > Demo pool 324 > wikien > Ira > 181-1 
> File 927344 





p Baba 


a: Uy wie ) is a fictional character described in the adventure tale of "All Baba and 
Thieves” which was added to the traditional collection of The Book of One Thousand and 

Gu teks eas desea Antoine Galland , an 18th-century French orientalist who 

| had heard it in oral form from a Maron:te story-teller from Aleppo . This story has also been used as 

| a popular pantomime plot, 

| 


Story Summary 


Ali Baba, a poor woodcutter, happens to see and overhear a large band of thieves - forty im all - 
visiting their treasure store in the forest where he is cutting wood. The thieves’ treasure is im a cave, 
the mouth of which is sealed by magic - it opens on the words “Open, Sesame”, and seals itself on 
the words "Close, Sesame". When the thieves are gone, Ali Baba enters the cave himself, and takes 
some of the treasure home. 


aro BES ES ese om his brother's unexpected wealth. and Ali Baba tells 
a B a aig w v |O O| Bi | cave to take more of the treasure, but forgets the magic 





图 13-9 INEX 2006 评估 界面 


评估 过 程 包含 两 个 阶段 。 在 第 一 个 阶段 中 ， 评 估 人 员 对 仅 包 含 相 关 部 分 的 文本 块 进行 加 

。 接 下 来 ， 根 据 XML 元 素 中 与 标注 部 分 的 相关 部 分 的 多 少 ， 对 于 专 一 性 维度 自动 进行 
B eee FoI SE NTR 1, RAINE RAO; 其 他 元 素 的 专 一 性 
得 分 定义 为 加 亮 文本 〈 即 相关 信息 ) 和 元 素 大 小 的 比例 〈 以 字符 为 单位 ) 。 在 第 二 个 阶段 中 ， 
针对 所 有 的 属于 加 亮 段 落 的 元 素 〈 以 及 它们 的 父 元 素 )， 评 佑 人 员 都 会 对 它们 的 穷尽 性 进行 
评估 。 穷 尽 性 属性 则 使 用 四 等 级 尺度 。 

通过 对 INEX 2005 的 结果 进行 广泛 的 统计 分 析 [1226]， 我 们 看 到 如 果 忽 略 掉 穷尽 性 维 
度 ， 对 检索 结果 的 性 能 比较 没有 太 大 的 变化 。 因 此 ， 在 INEX 2006 中 放弃 了 穷尽 性 ， 从 此 
开始 对 相关 性 的 评测 仅 考察 专 一 性 维度 (与 2005 年 采用 同样 的 方法 ) 。 因 此 ， 评 估 人 员 在 评 
估 过 程 仅 需 完成 第 一 阶段 ， 这 进一步 提高 了 评估 结果 的 质量 。 

经 过 多 年 的 实验 ， 对 XML 检索 来 说 ， 用 加 亮 过 程 来 收集 评估 信息 ， 足 够 可 靠 和 完备 。 
在 未 来 的 INEX 评测 中 ， 研 究 人 员 会 针对 更 大 范围 的 聚焦 检索 任务 〈 包 括 段 落 检 索 、 问 题 回 
答 、 元 素 检索 等 ) 进行 评测 。 观 察 这 一 评估 机 制 的 稳定 性 将 会 是 一 个 有 趣 的 课题 ， 因 为 对 不 
同 的 聚焦 检索 任务 采用 统一 的 评估 机 制 会 带 来 很 大 的 好 处 [1599]. 


13.5.5 测度 
对 XML 检索 进行 有 效 性 评价 需要 考虑 元 素 间 的 依赖 关系 。 与 传统 的 文档 检索 不 同 ， 用 
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FE XML 检索 中 可 以 访问 结果 集中 的 其 他 结构 相关 的 元 素 。 因 此 他 们 可 能 需要 通过 浏览 或 
者 滚动 (如 何 操作 及 范围 取决 于 界面 ) 找到 其 他 的 相关 信息 。 这 启发 了 在 评价 中 对 所 谓 的 微 
小 失误 (near-misses) 问题 的 考虑 ， 它 是 在 评价 中 用 户 可 以 通过 它 访问 到 相关 内 容 的 元 素 。 
另外 一 种 方法 就 是 忽略 微小 失误 ， 这 样 会 造成 评价 标准 过 于 严格 。TREC-8 中 的 Web 任务 ， 
通过 在 评价 检索 性 能 时 ， 考 看 链接 到 相关 内 容 的 网 页 ， 也 得 到 了 类 似 的 调查 结论 [723], 

从 2002—2004 Œ, INEX 使 用 inex_eval 评测 程序 [660]， 它 将 precall[1328] 测度 引 
人 到 XML 元 素 中 。 与 传统 的 精度 和 召回 率 测度 不 同 (参见 4. 3. 1 节 )，inex_eval 是 基于 计 
数 机 制 ， 即 检 出 元 素 与 相关 元 素 的 数量 S 。 因 此 ， 如 果 我 们 在 评价 检索 有 效 性 时 考虑 微小 失 
误 ， 那 么 返回 相关 但 是 有 重 登 元 素 的 系统 ， 比 返回 相关 但 是 没有 重 委 元 素 的 系统 有 更 高 的 有 
效 性 。 例 如 ， 如 果 一 个 相关 段落 和 包含 它 的 节 都 被 检索 出 来 ， 那 么 这 两 个 元 素 都 会 被 认为 相 
KR 〈 实 际 上 是 因为 段落 相关 才 使 得 节 也 相关 的 )， 这 就 增加 了 检 出 的 相关 元 素 的 数量 。 
因此 ， 尽 管 并 未 检 出 新 的 相关 信息 ， 但 返回 重 琶 相关 元 素 的 系统 可 以 得 到 更 高 的 有 效 性 得 分 
[886]. 

目前 已 经 提出 了 太 多 对 于 XML 检索 的 评价 方法 (例如 (483, 631, 885, 1253, 
1276]) 。 在 本 节 中 ， 我 们 介绍 一 种 从 传统 的 精度 和 召回 率 延 伸 而 来 的 方法 ， 它 将 在 INEX 
2005 的 加 亮 评估 过 程 中 得 到 的 知识 考虑 进来 。 这 些 测度 最 初 是 由 Pehcevski 和 Thom[1253] 
提出 的 ， 最 后 发 表 于 [867]， 从 2007 年 开始 成 为 INEX 的 正式 评测 指标 。 

我 们 回忆 一 下 ，XML 检索 系统 的 目标 就 是 返回 那些 包含 尽 可 能 多 的 相关 内 容 和 尽 可 能 
少 的 非 相 关内 容 的 元 素 。 利 用 加 亮 评估 过 程 ， 这 个 过 程 就 转变 成 了 返回 尽 可 能 多 的 加 亮 ( 相 
关 ) 内 容 ， 尽 可 能 少 的 非 加 亮 (不 相关 〉 内 容 。 精 度 和 召回 率 的 经 典 定 义 (参见 4.3.14) 
可 以 按照 这 个 要 求 修改 为 ; 


精度 一 检 出 相关 信息 的 数量 
CERN SKE 


_ 检 出 相关 信息 的 数量 
召回 率 一 相关 信息 的 总 数量 


这 里 我 们 不 统计 相关 项 〈 元 素 ) BRA, MPT MMR CONF) 的 文本 。 

更 正式 地 ， 用 hiength(e) 表示 对 于 已 给 定 的 主题 ， 在 元 素 e 中 包含 的 加 亮 文本 的 字符 
数 《 如 果 元 素 中 没有 加 亮 的 文本 ， 那 么 hlength(e)=0), length(e) 表示 元 素 e 中 包含 的 全 
部 字符 数 ，Trel 表示 对 于 给 定 的 主题 ， 在 文档 中 所 有 相关 《加 亮 ) 信息 的 总 字符 数 。 
erank (i) 函数 返 回 排序 为 i 的 元 素 。 前 7 位 精度 ， 记 做 P@r， 表 示 排 名 前 r 位 的 元 素 中 检 出 
相关 信息 的 比例 : 


>> hlength (erank (i)) 
P@r = = (13-5) 
2 length (erank (i)) 
这 个 定义 确保 为 了 在 排 位 > 上 得 到 高 的 精度 ， 排 在 其 之 前 〈 包 括 第 -> 位) 的 元 素 必 须 包 含 尽 


可 能 少 的 不 相关 内 容 〈 即 对 每 个 erank(i) 最 大 化 hlength(erank(i))). 
前 > 位 召回 率 ， 记 做 RG@r， 表 示 到 第 > 位 为 止 ， 相 关 信息 被 检 出 的 比例 ， 


-l 、sS ; - 
P@r = T X Dy hlength Cerank (i)) (13-6) 





O ”对 非 二 元 相关 性 ， 将 每 个 检索 的 元 素 的 相关 值 在 计数 中 增加 。 
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这 个 定义 确保 为 了 在 排 位 > 上 得 到 高 的 召回 率 ， 排 在 其 之 前 (包括 第 r 位 〉 的 元 素 必须 包含 
尽 可 能 多 的 相关 内 容 。 

Trel 的 定义 取决 于 是 否 准许 返回 重生 元 素 ， 即 全 面 的 还 是 聚焦 的 检索 子 任务 (参见 
13. 5. 3 节 ) 。 对 于 全 面子 任务 ，Tre: 表示 所 有 元 素 中 加 亮 字符 的 总 数 ， 对 于 聚焦 子 任 务 ， 
Trel 表示 所 有 文档 中 加 亮 字符 的 总 数 。 两 者 之 间 的 区 别 是 ， 对 于 前 者 ， 相 互 重 琶 的 文本 
重要 的 相关 元 素 中 包含 的 ) 都 用 来 计 人 加 亮相 关 部 分 的 总 数 ; 对 于 后 者 ， 使 用 的 是 非 重 玲 
文本 。 

这 种 测度 的 一 个 最 大 的 好 处 是 ， 对 每 一 个 查询 ， 它 们 不 需要 从 全 部 相关 文档 中 构造 理想 
的 〈 非 重 委 的) 相关 元 素 集 。 其 他 一 些 为 了 克服 inez_eval 缺陷 而 特别 制定 的 XML 评价 测 
度 则 需要 这 样 的 信息 。 从 文章 [882] 报告 的 实验 结果 可 以 看 出 ， 理 想 集 的 选取 方法 直接 影 
响 检 索性 能 的 评价 。 

对 于 信息 检索 的 精度 和 召回 率 等 传统 测度 ， 固 定 召 回 率 水 平 的 精度 和 平均 精度 等 其 他 测 
度 也 进行 了 定义 (参见 4. 3. 2 节 ) 。 这 些 测度 的 可 解释 性 与 从 标准 精度 和 召回 率 派生 的 测度 
类 似 ( 例 如，P@10%，P@20%，…，P@100%，MAP)， 这 些 测 度 在 信息 检索 研究 领域 
已 经 被 很 好 地 确定 和 理解 。 

最 后 ， 因 为 INEX 合并 了 其 他 种 类 的 聚焦 检索 任务 ， 所 以 这 些 定义 在 加 亮 文本 上 的 测 
度 ， 也 可 以 用 来 评价 其 他 任务 ， 比 如 用 于 INEX 2007 新 设置 的 段落 检索 任务 [606] 。 

13.6 查询 语言 

在 检索 非 结构 化 文本 时 ， 用 户 查 询 的 表达 能 力 自然 就 受到 了 一 定 的 限制 ， 因 为 用 户 只 能 
询问 文档 关于 什么 或 是 包含 什么 单词 。 在 结构 化 文本 中 ， 有 了 查询 诸 言 的 帮助 ， 用 户 有 了 表 
达 更 精确 查询 的 能 力 ， 例 如 ，“ 我 想 找 一 个 讨论 penguin 的 段落 ， 它 在 一 个 标记 了 South 
Pole WRA RRA”. XE, “penguin” A “South Pole” 是 对 要 检索 的 内 容 给 定 的 约束 条 件 ， 
而 “段落 ”和 “图 片 ” 是 对 要 检索 的 结构 给 定 的 约束 。 我 们 现在 要 讨论 的 查询 语言 就 是 
XML 和 结构 化 文本 检索 必 不 可 少 的 组 成 部 分 。 


13.6.1 特性 


文本 检索 查询 语言 的 特性 可 以 根据 要 表达 的 约束 的 种 类 ， 归 纳 为 三 个 主要 的 组 ， 内容 约 
束 、 模 板 匹 配 约 束 和 结构 约束 。 

1. 内 容 约束 

这 些 约束 与 内 容 方面 的 信息 需求 相关 ， 有 多 种 类 型 的 内 容 约 束 存在 : 

。 单词 : 一 个 或 者 多 个 用 来 指定 返回 的 文档 片段 应 该 包含 或 者 接近 的 查询 单词 。 对 于 
大 多 数 信息 检索 系统 而 言 ， 这 是 经 典 的 输入 。 

。 EFX: 单词 在 文本 中 的 位 置 ， 例 如 构成 一 个 短语 ， 或 者 在 一 个 给 定 的 距离 内 ( 例 
in, “information and retrieval with distance 4”), 

。 权重 : 单词 或 者 上 下 文 约束 在 文档 片段 中 的 重要 性 。 例 如 ，“0. 6 penguin 0.2 swim” 
的 含义 是 当 判 断 文 档 片 段 是 否 作 为 结果 返回 时 ，“penguin” 比 “swim” 要 重要 ， 
“十 penguin swim” 意 思 是 返回 的 文档 片段 必须 包含 或 者 关于 “penguin”。 

。 HR: 以 上 所 有 的 约束 都 可 以 使 用 布尔 运算 合并 。 例 如 ，“0.6 penguin or (south 
pole with distance 4)”。 满 足 布尔 表达 式 的 文档 片段 可 以 作为 结果 返回 。 

在 〈 传 统 ) 数据 库 中 ， 处 理 查询 的 内 容 约 束 〈 大 多 数 情 况 下 ) 会 得 到 一 个 未 排序 的 文档 
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片段 列表 ， 然 而 在 信息 检索 里 ， 这 个 列表 要 经 过 排序 。 此 外 ， 在 数据 库 中 ， 返 回 的 文档 片段 
中 通常 要 求 单词 必须 包含 在 其 中 ， 但 是 在 信息 检索 中 ， 包 含 被 关 涉 性 (aboutness) 替换 了 ， 
即 返回 的 文档 必须 与 (单词 所 描述 的 主题 ) 单词 相关 。 

2. 模板 匹配 约束 

这 些 约束 准许 检索 的 文档 片段 符合 特定 的 模板 ， 例 如 字符 串 、 前 级 、 后 级 、 子 串 或 者 正 


则 表达 式 等 。 
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3. 结构 约束 
结构 约束 准许 指定 结构 方面 的 信息 需求 。 它 主要 包含 三 种 类 型 [47] ， 
* 目标 结果 : 如 果 已 经 知道 所 需 结 果 的 结构 ， 那 么 用 户 可 以 通过 指定 具体 的 结果 结构 
来 满足 他 们 的 要 求 〈 例 如 ， 用 户 从 科研 论文 集中 查找 “摘要 ”部 分 ) 。 
。 支持 条 件 : 结构 可 以 用 来 指定 非 最 终结 果 的 结构 约束 。 例 如 ,一 个 用 户 查 询 “ 从 摘 
要 和 red wine 有 关 的 文章 中 找 出 有 关 Chie 的 章节 ”， 这 里 包含 两 个 结构 约束 : 一 个 
对 目标 结果 节 (关于 Chile) 的 要 求 ， 另 外 一 个 是 摘要 (KF red wine), HTH 
外 的 结构 约束 。 后 者 就 是 支持 条 件 。 
。 结果 构建 用 户 想 得 到 的 查询 结果 ,不 仅仅 是 已 经 存在 的 片段 (出 现在 文档 结构 
中 )， 而 且 还 希望 结果 可 以 由 一 个 或 者 多 个 文档 的 多 个 片段 构造 。 例 如 ， 用 户 可 能 希 
望 得 到 “一 节 的 题目 ， 以 及 这 一 节 的 第 一 段 和 最 后 一 段 组 成 的 片段 ”。 
用 来 访问 XML 文档 的 查询 语言 ， 就 是 为 了 全 部 或 者 部 分 满足 上 面 列 出 的 这 些 内 容 和 结 
构 约 束 。 需 要 注意 的 是 ， 表 达能 力 的 增强 就 意味 着 ， 将 用 户 信息 需求 转变 为 正确 的 查询 和 处 
理 这 些 查询 时 的 复杂 性 的 增加 。 


13.6.2 XML 查询 语言 分 类 


XML 查询 语言 可 以 分 为 内 容 (content-only) 和 内 容 - 结 构 Ccontent-and-structure) 查 
询 语 言 两 种 。 

1. 内 容 查询 语言 

内 容 查询 语言 使 用 内 容 约束 来 表达 用 户 的 信息 需求 。 最 简单 的 形式 是 由 一 些 单词 组 成 ， 
这 长 期 以 来 一 直 是 传统 信息 检索 的 标准 输入 形式 。 这 种 查询 语言 适用 于 用 户 在 表达 信息 需求 
时 不 知道 或 者 不 关心 文档 结构 的 XML 检索 领域 。 昌 然 仅 指定 了 内 容 方面 的 信息 需求 ， 但 
XML 检索 系统 依然 需要 决定 哪些 片段 ， 即 哪 一 个 颗粒 度 等 级 上 的 XML 元 素 最 适合 作为 要 
提供 的 信息 。 

2. 内 容 - 结 构 查 询 语言 

这 种 类 型 的 查询 语言 可 以 方便 用 户 指定 在 内 容 和 结构 方面 的 信息 需求 。 大 多 数 XML E 
询 语言 的 研究 也 都 是 朝 这 个 方向 发 展 的 。13. 6. 1 节 列 出 了 这 些 查 询 语言 所 具有 的 内 容 和 结 
构 特 性 。 这 里 我 们 主要 讨论 这 些 结构 特性 是 如 何 用 查询 语言 描述 的 ， 但 是 具体 的 句法 不 是 我 
们 这 里 的 重点 。 

内 容 -结构 查询 语言 包含 三 种 主要 的 类 型 ， 标 签 语言 、 路 径 语言 和 子 句 语 言 ， 其 复杂 性 
和 表达 能 力 从 标签 语言 到 子 句 语言 依次 增加 。 从 用 户 角 度 来 看 ， 这 种 表达 能 力 和 复杂 性 的 增 
加 ， 通 常 意味 着 内 容 -结构 查询 语言 难于 书写 。 但 是 它们 对 于 高 级 用 户 在 特定 的 领域 十 分 有 
用 ， 例 如 专利 检索 和 基因 检索 。 

(1) 标签 查询 

这 类 查询 准许 用 户 对 查询 中 的 单词 标注 一 个 标签 名 ， 用 于 指定 目标 结果 的 结构 约束 。 例 
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如 ， 对 于 信息 需求 “检索 关于 red wine 的 节 ” 可 以 表示 为 如 下 方式 : 

section: red wine 

标签 查询 语言 可 以 将 基本 的 结构 约束 引入 进来 ,但 是 与 路 径 查 询 语言 和 子 句 查询 语言 
比 缺 乏 表达 能 力 ， 这 是 因为 标签 查询 语言 不 包含 支持 条 件 和 结果 构建 。XSEarch[405] 是 标 
签 查询 语言 的 一 个 例子 。 

(2) 路 径 查询 

这 类 查询 基于 XPath 语法 ， 在 查询 中 封装 文档 的 结构 。 路 径 查 询 语 言 的 例子 包括 XPath 
1.09, XIRQL[603] 以 及 NEXI[1602]。 例 如 ， 对 于 信息 需求 “在 关于 Chile 的 文档 中 检索 
有 关 red wine 的 节 ” 用 NEXI 表示 为 : 

//document [about(., Chile)]//section[about(., red wine)} 

路 径 查 询 可 以 表示 目标 结果 (上 例 中 的 “section” 元 素 ) 和 支持 条 件 í “document” $% 
于 “Chile”) 。 

XIRQL 准许 对 结构 约束 赋 以 权重 ,例如 XIRQL 查询 : 

//section[0.6 .//* $cw$ "Chile" + 0.4 .//section $cw$ "wine"] 

要 求 检 索 节 ， 该 节 所 包含 的 元 素 EXN, AARI wA Ai “Chile”, KERE 
元 素 包 含 单词 “wine”， 其 中 第 一 个 结构 约束 比 第 二 个 约 东 在 估计 哪些 节 可 以 作为 结果 时 要 
重要 。 

需要 注意 的 是 ， 任 何 标签 查询 ， 例 如 ，section:red wine， 可 以 用 路 径 查询 进行 重 
写 , 例如 ， 用 NEXI 可 以 重 写 为 : 

//section[., about (red wine)] 

此 外 ， 所 有 内 容 查询 也 可 以 用 路 径 查 询 表示 ， 例 如 下 例 中 的 NEXI 查询 语言 : 

//*{., about(red wine)] 
它 要 检索 关于 “red wine” 在 任意 颗粒 度 水 平 下 的 元 素 。 

(3) 子 身 查询 

这 类 查询 使 用 髓 套子 句 来 表达 信息 需求 ， 与 数据 库 中 的 SQL 语言 (结构 化 查询 语言 
很 类 似 。 在 XML 检索 中 ， 最 突出 的 子 句 查询 语言 是 XQuery 。 典 型 的 子 句 查询 由 三 个 子 
句 组 成 :“for” 子 句 指定 支持 条 件 , “where” 子 句 指定 内 容 约 束 , “return” 子 句 指定 目标 
片段 或 者 重组 新 的 片段 作为 结果 。 在 “for” 和 “return” 子 句 中 ， 使 用 XPath 表达 式 来 指 
定 文档 的 结构 。 对 于 信息 需求 “检索 标题 为 penguins 的 文档 的 节 ”， 用 XQuery 可 以 如 下 
表示 : 

for $x in /document/section 

where $x/title=penguins 
return $x/section 


全 文 XQuery[42] 扩展 了 XQuery， 具 有 强 有 力 的 全 文 检索 操作 ,包括 13.6.1 节 中 介 
绍 的 上 下 文 约束 例如 邻近 距离 ) 和 排序 函数 等 。 


13. 6.3 XML 查询 语言 样 例 


在 本 节 中 ， 我 们 将 介绍 四 种 内 容 - 结 构 查 询 语言 。 在 13. 6. 2 节 中 我 们 提 到 ，XML 内 
容 查 询 语 言 可 以 使 用 与 扁平 〈 非 结构 化 ) 文本 检索 一 样 的 方法 指定 ， 因 此 ， 本 节 中 我 们 
就 不 再 详细 讨论 。 我 们 这 里 介绍 两 种 路 径 查询 语言 ，XPath 和 NEXI， 以 及 两 种 子 句 查询 


© http://www. w3. org/TR/xpath, 
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语言 ，XQuery 和 全 文 XQuery。 这 些 查询 语言 对 目前 XML 查询 语言 的 发 展 提供 了 很 好 的 
概述 。 

1. XPath 

XPath (XML 路 径 语言 ) 是 W3C 定义 的 查询 语言 。 它 的 主要 目的 是 用 来 访问 或 者 浏览 
XML 文档 。 此 外 ，XPath 提供 了 基本 的 字符 串 、 数 字 和 布尔 操作 功能 。XPath 的 第 一 个 工 
作 草 案 (XPath 1.0) 在 1999 年 7 月 发 表 ，1999 年 11 月 获得 了 推荐 e 。 

XPath 中 最 重要 的 表达 式 类 型 是 定位 路 径 (location path) ， 它 包含 了 在 XML 文档 中 的 

577] 一 系列 导航 步骤 。book/publisher/@isbn 是 一 个 定位 路 径 ， 其 中 book 和 publisher 分 

别 是 导航 到 (或 者 选择 ) “book” 和 “publisher” 子 元 素 的 步骤 ，eisbn 是 导航 到 “isbn” 
属性 的 步骤 。 所 有 这 些 步骤 间 用 “/” 分 割 ， 表 示 定 位 路 径 选择 直接 在 publisher 元 素 下 的 
isbn 属性 ， 而 它 直 接 在 book 元 素 下 。publisher 元 素 作为 book 元 素 的 子 元 素 。“/” 对 应 于 
所 谓 的 子 结 点 和 双亲 在 XPath 轴 中 的 一 步 。 

导航 步骤 也 可 以 由 “/” 分 割 ， 它 表示 定位 路 径 在 进行 下 一 步 前 ， 导 航 到 当前 元 素 和 它 
的 所 有 后 代 元 素 。 例 如 ，book//title 导航 到 所 有 直接 或 者 间接 在 book 元 素 下 的 title 元 
素 ， 其 中 //title 会 选择 文档 中 的 所 有 title 元 素 。 

特殊 的 步骤 包括 自身 步 (self step〉 记 做 “.” 以 及 双亲 步 (parent step)“..”。 fa 
如 ,.//book 返回 当前 结 点 中 包含 的 任何 book 元 素 ， 而 ../publisher 返回 当前 结 点 的 父 结 
点 所 包含 的 publisher TR. Ab, XPath 使 用 通配符 “* ”和 “@* ”来 导航 到 任意 名 字 的 
元 素 和 属性 ， 例 如 book/* 以 及 book/publisher/@* 。 

在 每 一 步 中 ， 可 以 在 “[” 和 “jj” 之 间 指 定 断 言 ， 选 择 〈 导 航 ) 的 结 点 必须 满足 这 些 断 
言 。 例 如 ，XPath 表达 式 //book[Q@year= 2002]/title 选择 的 是 包含 且 仅 包含 发 表 于 2002 
年 的 书 的 题目 。 标准 比较 操作 符 二 、! = 二、 二 和 < 二 都 可 用 于 断言 。 存 在 断言 用 于 判断 一 个 路 
径 表 达 式 是 否 返 回 非 空 结 果 。 例 如 ，XPath 表达 式 Wpublisher[city] 选 择 给 定 城市 的 出 
版 社 。 最 后 ， 位 置 断言 用 来 根据 一 个 元 素 在 文档 树 中 的 位 置 进行 导航 。 例 如 //publisher/ 
countryL1]/city 选择 每 个 出 版 社 所 在 的 第 一 个 国家 的 城市 (我 们 假设 一 个 出 版 社 设 在 多 
个 国家 ) 。 比 较 和 存在 断言 可 以 用 “and” 和 “or” 操 作 以 及 “not()” 函 数 进行 合并 。 例 如 ， 
not (@year= 2002). 

布尔 函数 contains 0 是 XPath 中 进行 面向 内 容 的 XML 检索 的 一 个 重要 函数 ， 它 的 输 
人 是 两 个 字符 串 变 量 ， 输 出 是 true， 表 示 第 一 个 字符 串 包 含 第 二 个 字符 串 ; 否则 ， 输 出 
false。 这 个 函数 可 以 用 来 检查 元 素 的 文本 〈 作 为 第 一 个 变量 ) 中 是 否 包 含 了 指定 的 字符 串 
《作为 第 二 个 变量 )。 它 的 输出 不 是 一 个 排序 的 元 素 列 表 ， 因 此 XPath 不 是 一 个 可 以 直接 应 
用 于 面向 内 容 的 XML 检索 的 查询 语言 。 然 而 ，XPath 可 以 应 用 于 其 他 XML 查询 语言 或 者 
已 经 启发 了 其 他 XML 检索 语言 ， 其 中 一 些 准许 对 结果 排序 。 

2. NEXI 

Narrowed Extended XPath I (NEXD 查询 语言 [1602] 是 由 INEX 开发 的 、 用 于 面向 
内 容 的 XML 检索 评价 的 简单 查询 语言 。NEXI 包含 一 个 小 的 但 是 扩展 的 XPath 子 集 ， 
INEX 参 与 者 使 用 它 来 构造 真实 的 内 容 - 结 构 查 询 ， 用 以 构造 测试 集 。NEXI 是 基于 XPath 
的 ， 因 为 后 者 是 XML 界 已 经 熟知 的 一 种 语言 ， 所 以 如 果 INEX 使 用 另外 一 种 XML 语言 会 

带 来 一 些 不 利之 处 。 


http:/www. w3. org/TR/xpath, 


第 13 章 结构 化 文本 检索 。 423 


NEXI 对 于 XPath 的 扩展 是 引 人 了 一 个 新 的 画 数 ， 叫 做 about () XPath 中 的 contains() 
函数 要 求 元 素 〈 其 文本 ) 包含 给 定 的 字符 串 内 容 ， 替 换 为 about () 函数 ， 它 要 求 元 素 与 这 个 内 
容 有 关 。about () 函数 反映 的 是 元 素 有 可 能 与 给 定 的 查询 《内 容 部 分 ) 相关 ， 但 是 并 不 真正 包 
含 查询 中 使 用 的 任何 单词 。 

从 XPath 中 选择 一 个 小 的 子 集 的 原因 有 两 个 方面 。 第 一 ， 从 提交 给 INEX 的 查询 分 析 
可 以 看 到 ， 使 用 XPath 的 定位 路 径 来 表达 结构 约束 会 带 来 较 高 的 语法 和 语义 的 错误 率 
[1227]。 因 此 ， 所 有 对 评价 面向 内 容 的 XML 检索 的 有 效 性 不 和 需要 的 定位 路 径 都 可 以 省 略 
掉 。 例 如 ，parent/child 导航 步 中 的 “/” 是 最 有 问题 的 ， 因 为 它 会 被 错误 地 解释 ， 所 以 被 删 
除了 。 

第 二 ，NEXI 是 为 了 做 检索 评价 而 定义 的 。 为 了 这 个 原因 ， 不 能 使 用 位 置 断言 ， 因 为 它 
们 对 有 效 性 评测 没有 任何 帮助 。 此 外 ， 所 有 目标 元 素 都 必须 包含 至 少 一 个 内 容 条 件 ， 即 一 个 
about (0 函数。 这 实际 上 是 一 个 机 械 的 过 程 ， 比 如 可 以 返回 有 关 给 定 主题 的 节 的 标题 。 出 于 
评价 检索 效果 的 目的 ， 重 要 的 是 相关 的 节 是 否 确实 返回 了 。 

例如 一 个 NEXI RRM.: 


/farticle[about(.//body, "artificial intelligence")]// 
body [about (., chess) and about(., algorithm)] 


目标 结果 是 //article//body。 使 用 了 几 个 内 容 约束 ， 例 如 ，about (.//body, "arti- 
ficial intelligence")， 有 一 个 约束 是 目标 结果 。 一 个 布尔 操作 用 在 about (., chess) 
和 about (.,algorithm) 之 间 。 

INEX 组 织 开 发 NEXI 的 目的 ， 是 为 了 XML 检索 性 能 评测 而 构建 主题 。 因 此 XML 检索 
任务 中 要 对 NEXI 查询 进行 解释 ， 其 中 解释 是 指 XML 检索 系统 通过 检索 模型 实现 对 about 0 条 
件 的 解释 ， 以 及 查询 处 理 引 擎 对 于 结构 约束 的 处 理 。 

3. XQuery 

XQuery 是 使 用 XPath 作为 子 语言 的 一 种 XML 查询 语言 ， 但 是 增加 了 查询 多 个 文档 和 
合并 检索 结果 到 一 个 新 的 XML 片段 “结果 构建 ) 的 能 力 。XQuery 是 W3C 工作 组 的 成 果 ， 
该 工作 组 是 在 一 个 XML 查询 语言 专题 讨论 会 之 后 作为 结果 成 立 的 9 。XQuery 1.0 的 推荐 文 
H° RETF 2007 年 1 月 9。 

XQuery 的 绝 大 多 数 特 征 都 可 以 追溯 到 它 的 直接 前 身 Quilt[354]， 它 是 为 了 查询 异 质 数 
据 集 而 构建 的 ， 并 且 借 鉴 了 多 种 语言 的 设计 。 这 些 措施 包含 在 XPath 1.0 (如 前 所 述 ) 和 
XQL (面向 文档 的 语言 ) 中 ， 其 中 路 径 表 达 式 的 概念 引信 人 到 多 层次 结构 化 文档 导航 中 。 从 
XML-QL (面向 半 结 构 化 信息 的 语言 ) [494] 得 到 的 想法 是 使 用 变量 绑 定 来 构建 新 的 返回 结 
果 片 段 。 较 早 的 影响 包括 SQL 的 “select-from-where” 子 句 来 重组 数据 ， 以 及 合并 、 分 组 
等 操作 ， 这 些 启发 了 FLWOR 表达 式 的 产生 。 上 此外， 需要 提 到 的 是 面向 对 象 的 语言 
(Object-Oriented Language, OQL) [345] 的 影响 ， 它 贡献 了 由 不 同类 别 的 可 肉 套 表达 式 组 
成 的 功能 性 语言 。 

XQuery 的 核心 表达 式 是 FLWOR 表达 式 。 举 例 说 明 ， 考 虑 如 下 的 XQuery 表达 式 ， 其 
功能 是 根据 名 字 排 序 ， 列 出 那些 平均 图 书 价格 在 50 欧元 之 下 的 出 版 商 : 


http: /www. w3. org/TandS/QL/QL98. 

http: // www. w3. org/TR/xquery/. 

2007 421A, XQuery 1.0 和 XPath 2.0 的 推荐 文档 一 起 发 布 。XPath 2.0 与 XQuery 1.0 采用 了 同样 的 数据 模 
型 ， 并 且 它 在 语义 和 语法 上 都 是 XQuery 1.0 的 一 个 子 集 。 
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for $pub in distinct-values (doc("pub.xml")//publisher) 
let $a := avg(doc("bib.xm1")/book[publisher = $pub]/price) 
where $a < 50 
order by $pub/name 
return <publisher> { $pub/name , $a } </publisher> 


FLWOR 表达 式 以 一 个 或 者 多 个 for 和 let 子 句 开始 ， 每 个 子 句 与 一 些 变量 (WSF 
头 ) Be. 5 for 子 句 绑 定 的 变量 用 于 遍历 表达 式 结果 序列 中 的 元 素 ， 与 let 子 句 绑 定 的 
变量 用 于 遍历 整个 序列 。 可 选 的 where 子 句 指定 选择 条 件 ， 另 一 个 可 选 的 order by 子 句 指 
定 了 排序 准则 。 最 后 ，return 子 句 指定 了 哪些 结果 会 被 返回 。 

在 上 面 这 个 例子 中 ，for 子 句 与 变量 $pub 绑 定 ， 它 以 出 现 的 先后 顺序 遍历 文档 
“pub. xml” 中 所 有 的 出 版 商 元 素 。distinct-values MAAK “pub. xml” 中 的 重复 。 
对 于 每 个 绑 定 的 变量 $pub, let FARE $a 来 计算 来 自 于 出 版 社 $pub 的 书籍 的 平均 价 
Wo HERR, BE where 子 句 为 真 的 、 符 合 条 件 的 出 版 社 元 素 被 选择 出 来 ， 即 平均 价格 $a 
小 于 50。 结 果 根 据 order by 子 句 给 出 的 $pub ($pub/name) 中 的 出 版 社 名 字 排 序 。 最 后 ， 
对 于 根据 前 面子 句 中 产生 的 每 一 个 绑 定 $pub 和 $a WAR, return 子 句 生 成 一 个 新 的 包含 
出 版 商 $pub 名 字 的 出 版 商 元 素 ， 并 且 包 含 平均 价格 $a。 若 没有 order by FH, ARMS 
根据 出 版 商 元 素 出 现在 “pub. xml” 中 的 顺序 进行 排序 。 结 果 是 新 的 片段 ， 因 为 它们 并 没有 
出 现在 原始 的 XML 文档 中 。 

XQuery 对 于 XML 检索 是 一 个 功能 强大 的 查询 语言 ， 它 可 以 看 做 是 XML 的 SQL。 它 
是 一 个 最 适合 于 以 数据 为 中 心 的 XML 检索 语言 。 这 是 因为 ， 它 的 文本 检索 内 容 有 限 ， 并 且 
它 并 不 提供 结果 排序 ， 而 后 者 对 于 面向 内 容 的 XML 检索 十 分 关键 。 

4. 全 文 XQuery 

EX XQueryl 42] 是 从 XQuery 扩展 而 来 的 一 种 XML 查询 语言 ， 具 有 很 强 的 文本 
搜索 能 力 。 例 如 ， 利 用 全 文 XQuery， 用 户 可 以 查找 符合 “包含 单词 “growing” 和 
‘wine’， 并 且 它 们 的 距离 在 三 个 单词 以 内 ， 同 时 忽略 掉 单 词 growing 的 词 干 变化 ”的 目 
标 元 素 ， 这 种 需求 不 能 用 XQuery RIA. WI, HM XQuery 准许 指定 结果 按照 它们 的 
相关 度 进行 排序 。 

EX XQuery 受到 早期 结构 化 文本 检索 语言 的 启发 ， 例 如 ELIXIR[372], JuruXML 
[333] 和 XIRQLL603]。 本 节 所 基于 的 文档 发 表 于 2008 年 5 月 9 。 

增加 的 文本 检索 能 力 是 通过 一 种 新 的 XQuery 表达 式 FTContainsExpr 实现 的 ， 它 作为 
一 个 普通 的 XQuery 表达 式 完 全 可 以 与 其 他 XQuery 和 XPath 表达 式 组 合 。 例 如 ， 下 例 中 的 
FTContainsEx pr RIKA: 

//book[./title ftcontains {"red" "wine"} all]//author 
返回 题目 中 包含 指定 单词 “red” “wine” 的 书籍 的 作者 。 

EX XQuery 定义 了 文本 检索 的 原 语 ( 即 上 下 文 内 容 约 束 )， 例 如 短语 、 词 序 、 邻 近 单 
词 等 。 它 也 允许 在 单词 匹配 时 指定 字母 的 大 小 写 ， 还 可 以 使 用 词 干 提取 、 同 义 词典 、 禁 用 
词 、 内 容 模板 匹配 (使 用 正则 表达 式 通 配 符 )， 以 及 其 他 功能 。 例 如 ， 下 例 中 的 FTContain- 
sExpr 表达 式 限制 了 匹配 的 单词 要 在 6 个 单词 的 窗口 内 : 


//book[./title ftcontains {"red" "wine"} 
all window at least 6 words]//author 


下 例 中 的 FTContainsExpr 表达 式 查找 与 单词 “growing” 匹 配 的 多 种 形式 ， 例 如 





© http://www. w3. org/TRVxquery-full-text/。 需 要 注意 的 全 文 XQuery 的 语法 是 可 能 已 经 演变 了 。 
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“grow”, “grows” $., 

//book[./title ftcontains "growing" with stems]//author 

结果 排序 通过 引入 FTScoreClause 表达 式 ， 可 以 指定 评分 变量 。 这 些 变量 提供 了 访问 
FTContainsExpr 表达 式 的 评价 得 分 功能 。 一 个 与 信息 检索 搜索 类 似 的 例子 如 下 : 

for $b score $s in //book[./title ftcontains {"red" "wine"} all] 


order by $s descending 
return <book isbn="{$b/@isbn}" score="{$s}"/> 


上 面 这 个 查询 遍历 所 有 题目 中 包含 “red” 和 “wine” 的 书 ， 其 中 变量 $b 将 每 本 书 的 得 分 
与 得 分 变量 $s 绑 定 。 两 个 变量 用 于 返回 书 的 “isbn” 号 和 它 的 得 分 ， 按 照相 关 性 倒序 
排列 。 

EX XQuery 并 不 是 为 了 实现 某 个 特定 的 评分 方法 而 设计 的 ， 而 是 准许 实际 使 用 时 按照 
自己 的 想法 来 处 理 。 换 句 话说 ， 上 例 查询 中 没有 具体 指定 $s 的 值 是 如 何 计 算 的 。 每 一 个 全 
X XQuery 的 实现 方案 都 可 以 自己 选择 评分 函数 ， 只 要 生成 的 得 分 在 [0，1] 之 内 ， 越 高 的 
得 分 意味 着 越 高 的 相关 性 。 

EX XQuery 具有 数据 和 文档 为 中 心 的 XML 检索 应 用 所 需 的 所 有 特性 。 它 就 是 为 了 这 
个 目的 而 开发 的 。 它 可 以 实现 用 于 对 结果 排序 的 评分 函数 。 从 面向 内 容 的 XML 检索 角度 ， 
全 文 XQuery 可 能 会 被 许多 终端 用 户 认为 过 于 复杂 、 难 于 掌握 。 但 是 它 适 用 于 一 些 需 要 专业 
用 户 介 入 的 应 用 ， 例 如 医学 领域 或 专利 产业 。 此 外 ， 能 够 产生 新 结果 的 能 力 (XQuery HA 
A) 也 对 所 谓 的 聚合 检索 [966] 有 帮助 ， 即 将 从 同一 篇 文档 或 者 多 篇 文档 的 多 个 片段 合并 
起 来 组 成 新 的 结果 。 


13.7 ”趋势 和 研究 问题 


结构 化 文本 检索 对 于 给 定 的 查询 ， 利 用 文档 的 内 容 和 结构 来 确定 最 合适 的 文档 片段 作为 
答案 。 对 于 包含 长 文档 或 者 包含 了 很 多 主题 的 文档 (例如 书籍 、 使 用 说 明 书 和 法 律 文件 等 ) 
的 信息 资源 库 ， 它 被 认为 是 特别 有 帮助 的 ， 可 以 帮助 用 户 直接 定位 到 最 有 用 的 部 分 ， 而 减少 
用 户 在 一 篇 文档 中 查找 相关 部 分 的 工作 。 

结合 文本 内 容 信息 和 文档 结构 信息 的 检索 模型 叫做 结构 化 检索 模型 。 我 们 讨论 了 结构 化 
文档 检索 模型 的 结构 化 能 力 ， 也 讨论 了 两 种 早期 的 这 类 模型 。 初 步 的 结论 是 ， 模 型 的 表达 能 
力 越 强 ， 其 查询 处 理 的 效率 就 越 低 。 因 此 ， 在 根据 给 定 的 应 用 选择 结构 化 文本 处 理 模 型 时 一 
定 要 仔细 考虑 。 一 条 好 的 方针 就 是 选择 能 满足 应 用 所 需 功 能 的 最 高 效 的 模型 。 

由 于 XML 已 经 被 采纳 为 结构 化 文本 的 格式 ， 因 此 结构 化 文本 检索 现在 已 经 变 成 了 
XML 检索 的 同义词 ，XML 检索 研究 的 起 步 早 于 2002 年 推出 的 INEX。 然 而 ， 面 向 内 容 的 
XML 检索 是 在 其 之 后 才 有 了 大 的 进步 。 对 于 查询 处 理 、 索 引 和 检索 ， 现 在 都 还 不 能 非常 一 
致 地 肯定 哪 种 方法 或 者 哪些 方法 的 组 合 可 以 得 到 最 好 的 效果 ， 因 为 确定 元 素 与 给 定 的 查询 是 
否 相 关 ， 受 到 很 多 因素 的 影响 ， 例 如 元 素 的 大 小 、 元 素 的 类 型 、 元 素 在 文档 树 结构 上 的 位 
置 、 结 构 相 关 元 素 的 相关 度 、 结 构 约 束 的 解释 ， 以 及 文档 集 的 性 质 等 。 然 而 ， 我 们 可 以 假 
设 ， 考 虑 元 素 的 上 下 文 、 元 素 的 大 小 ， 以 及 元 素 自身 的 内 容 〈 直 接 或 者 使 用 传播 或 聚合 策 
BE) 来 估计 元 素 与 给 定 查询 之 间 的 相关 性 对 于 XML 检索 是 有 益处 的 。 另 一 个 剩 下 的 问题 是 
内 容 -结构 查询 迄今 所 带 来 的 检索 性 能 改善 是 有 限 的 [1601] 。 

在 本 章 中 ， 我 们 没有 讨论 效率 问题 。 许 多 检索 策略 需要 引 人 复 杂 处 理 。 不 只 是 查询 需要 
更 多 的 处 理 〈 例 如 ， 由 于 它们 的 结构 约束 )， 而 且 可 能 检 出 元 素 的 数量 也 比 仅 处 理 整 篇 文档 
要 大 得 多 。 很 多 在 INEX 竞赛 期 间 评估 的 方法 都 关注 性 能 而 忽略 了 效率 。 一 些 重 要 的 贡献 包 
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括 [601, 1578]. INEX 2008 启动 的 关注 效率 的 任务 9 很 受 欢迎 。 

另外 一 个 本 章 中 没有 讨论 的 关于 XML 检索 的 重要 问题 是 用 户 界面 。 合 适 的 界面 对 于 越 
来 越 复 杂 的 用 户 与 检索 系统 间 的 交互 是 十 分 需要 的 ， 例如， 为 了 能 够 表达 内 容 -结构 查询 
(例如 [1627D 和 显示 XML 检索 结果 (例如 [868]) 。 

本 章 介 绍 的 检索 策略 的 目标 是 为 了 估计 元 素 与 给 定 查 询 之 间 的 相关 度 。 这 并 不 一 定 是 
XML 检索 的 最 终 任 务 。 去 除 结果 中 的 重 杰 是 第 二 个 检索 任务 。INEX 中 研究 的 第 三 个 任务 
是 上 下 文 相关 性 任务 (relevant in context)， 它 关注 对 于 给 定 查 询 返 回 最 相关 的 文档 ， 并 且 
在 每 一 个 文档 中 ， 找 出 最 相关 的 元 素 。 将 结果 列表 中 的 元 素 按 文档 分 组 ， 比 属于 同一 文档 的 
元 素 分 布 在 整个 列表 中 ， 更 适合 用 户 [195, 1591]. Æ INEX 中 研究 的 第 四 个 任务 是 上 下 文 
最 优 任务 (best in context)。 其 目的 是 找到 一 个 唯一 的 文档 人 口 ， 即 XML 元 素 ， 从 这 里 开 
始 阅 读 相关 内 容 。 这 样 的 检索 场景 符合 中 等 大 小 的 文档 集 。 

从 2007 年 开始 ，INEX 包含 了 段落 检索 任务 ， 其 目标 是 找到 大 小 合适 的 结果 ， 并 返回 
它 的 位 置信 息 。 段 落 检 索 自 90 年 代 中 期 在 信息 检索 领域 开始 研究 [318，734，878，1415， 
1696]。 段 落 检 索 任 务 的 构想 来 自 于 2005 年 开始 的 评估 过 程 ， 即 对 文档 中 的 相关 文档 加 亮 。 
因此 段落 检索 无 非 是 试图 找 出 这 些 加 亮 的 片段 ， 并 对 它们 进行 适当 的 排序 。 一 个 值得 关注 的 
问题 在 于 ， 是 先 找到 这 些 段落 ， 然 后 再 将 它们 映射 到 元 素 中 去 ， 还 是 直接 将 最 好 的 元 素 作 为 
查询 的 答案 (785, 814]. 

一 个 受到 越 来 越 多 关注 的 新 范式 是 聚合 搜索 [966]。 在 上 下 文 相 关 性 任务 中 ,， 来自 
同一 个 文档 中 的 元 素 组 合 在 一 起 。 没 有 什么 能 够 阻止 创建 虚拟 文档 ， 即 将 来 自 于 不 同文 
档 的 元 素 智 能 地 聚合 成 新 文档 。2008 年 夏 发 布 了 关于 聚焦 检索 和 结果 聚合 的 专刊 论文 征 
集 。 按 照 本 章 的 描述， 聚集 检索 这 一 术语 体现 在 XML 检索 中 的 段落 检索 和 问题 回答 
[1599]。 事 实 上 ， 作 为 段落 检索 和 问题 回答 系统 返回 的 段落 和 答案 ， 也 可 以 分 别 用 做 结 
果 聚 合 。 其 至 是 全 文 也 可 以 使 用 ,并且 已 经 使 用 在 主流 搜索 引擎 ， 例 如 Alpha Yahoo! 和 
Google 的 统一 检索 。 

到 目前 为 止 ， 在 INEX 竞赛 中 开发 的 大 多 数 XML 检索 方法 都 一 直 关 注 扁平 的 文本 单元 
检索 ， 例 如 元 素 和 段落 (近期 才 开 始 )。 一 个 重要 的 遗漏 是 从 结构 化 (层次 化 ) 文本 中 检索 
树 结构 ， 这 种 方法 可 以 准许 文档 结构 体现 在 结果 中 ， 同 时 解释 文档 树 上 的 用 户 导 航 。 例 如 ， 
ZX XQuery 等 XML 查询 语言 包含 对 基于 树 结 构 约束 查询 的 支持 ， 可 以 指定 基于 树 的 结果 。 
一 些 方法 可 以 输出 XML 文档 子 树 的 排序 序列 ， 例 如 XRANK[686]、XXL[1577] 和 
XIRQLL603]。 随 着 对 树 检 索 的 关注 度 增高 ， 对 树 检 索 的 有 效 性 进行 评定 的 评价 方法 需求 也 
提 了 出 来 [26]。 在 写作 本 书 时 ，INEX 竞赛 连续 举办 了 ?7 年 [602, 609, 611, 610, 612, 
606, 621], 今年 是 第 8 年 。 对 XML 进行 评价 是 一 个 挑战 ， 因 为 增加 结构 信息 会 带 来 很 多 
复杂 的 问题 ， 其 中 有 些 并 不 总 能 在 开始 时 很 好 地 预见 到 (例如 ， 重 全 问题 和 基于 计数 的 度 
E, 在 2 个 维度 上 使 用 四 级 评分 对 元 素 始终 如 一 评估 的 难度 等 )。 此 外 ,经费 很 有 限 ， 这 些 
经 费 的 用 途 包 括 支 付 评估 人 员 费 用 等 。 这 导致 了 研究 本 身 的 问题 ， 例 如 ， 如 何 提高 评估 质量 
使 得 测试 集 可 以 重复 使 用 [1279]。 通 过 6 年 的 时 间 和 一 系列 的 变化 〈 例 如 ，XML 检索 中 相 
关 性 的 定义 ， 很 多 评价 方法 的 提出 )， 已 经 达到 了 一 定 的 稳定 性 ， 使 得 现在 的 研究 人 员 和 开 
发 人 员 可 以 全 心 专注 于 XML 检索 方法 ， 能 够 了 解 在 XML 检索 中 哪些 部 分 有 效果 ， 因 为 现 
在 我 们 知道 怎样 评价 和 解释 XML 检索 结果 的 有 效 性 。 


© http: //www. inex. otago. ac. nz/tracks/efficiency/efficiency. asp. 


第 13 章 结构 化 文本 检索 ， 427 


从 2002 年 完成 的 综述 [488] 中 可 以 看 到 ， 早 期 的 XML 文档 语言 在 面向 内 容 的 XML 
检索 中 受到 了 很 多 限制 。 例 如 ， 它 们 不 提供 相似 度 检索 ， 因 此 不 可 能 对 结果 按照 相似 度 排 
序 。 从 而 ， 出 现 了 面向 XML 内 容 检 索 的 查询 语言 。 例 如 ，XXL[1577]、ELIXIRL372]、 
XIRQL[603]、ApproXQL[1438] 以 及 本 章 介 绍 的 NEXI MEX XQuery, £X XQuery 是 
为 了 符合 “XQuery 1.0” 和 “Xpath 2.0 Full-Text 1. 0” 需 求 98 和 用 例 9 而 设计 的 。 目 前 的 
规范 是 W3C 的 候选 推荐 。 一 旦 某 些 条 件 达 到 后 (例如 ， 一 个 可 以 测试 每 一 个 独立 特征 的 测 
试 组 件 ， 本 规范 的 最 小 一 致 性 被 至 少 两 个 独立 的 实现 方案 证 明 )， 这 个 文档 打算 作为 W3C 
提议 推荐 提交 。 这 个 文档 发 表 于 2008 年 5 月 16 日 ， 对 于 开发 和 实现 已 经 是 足够 成 熟 和 
稳定 9。 

XML 检索 对 于 信息 检索 的 所 有 领域 都 变 得 越 来 越 重 要 。 虽 然 我 们 这 里 没有 讨论 ， 但 类 
似 于 TREC，INEX 独立 运行 多 个 额外 的 任务 来 研究 XML 检索 的 不 同方 面 和 任务 ， 包 括 交 
互 、 相 关 反 馈 、 蜡 质 文档 集 检索 、 实 体 排序 、 自 然 语言 查询 和 问题 回答 等 。 有 兴趣 的 读者 可 
以 参阅 INEX 的 网 站 ， 很 多 报告 发 表 于 SIGIR 论坛 8。 现在 已 经 有 一 些 XML 检索 技术 的 应 
用 [1261],， 例 如， 图 书 检索 从 2007 年 开始 作为 INEX 的 一 个 任务 进行 研究 [884]. 


13.8 文献 讨论 

许多 本 章 中 讨论 的 方法 的 在 Ozcu 和 Liu 编辑 的 《Encyclopedia of Database Systems》 
(数据 库 系统 百科 全 书 ) [1236] 中 的 一 些 条 目 中 有 更 详细 的 描述 。 关 于 XML 检索 ， 这 些 条 
目 包 括 Kamps 写 的 “Indexing Units” [874] (参见 13. 4. 2 节 )、Kekalaineen 等 人 写 的 
“Contextualization” [893], Trotman 写 的 “Processingstructural constraints” [1597], 
Pinel-Sauvagnat 写 的 “Propagation-based structured textretrieval” [1264]、Tsikrika 写 的 
“Aggregation-based Structured Text Retrieval” (参见 13.4.3 47) 和 Ramirez 写 的 “Pro- 
cessing overlaps” [1332] (参见 13. 4.4 节 )。 

我 们 对 文本 检索 模型 结构 化 能 力 的 分 析 是 基于 百科 全 书 中 由 Hiemstra 和 Baeza-Yates 
所 写 的 “Structured Text Retrieval Models” #H [761]， 它 本 身 是 基于 Baeza-Yates 和 
Navarro 的 综述 L115]， 综 述 中 还 包含 了 对 结构 化 文本 检索 的 其 他 一 些 复 杂 模 型 的 介绍 。 
MacLeod 所 写 的 综述 也 受到 大 家 关注 (尽管 较 旧 一 些 ) [1070]. Burkowski[298, 299] 提 
出 了 一 种 非 履 盖 区 域 的 模型 。Clarke 等 人 [392] 扩展 了 这 个 模型 ， 使 之 具有 覆盖 能 力 。 基 
于 邻近 结 点 的 模型 是 Navarro 和 Baeza-Yates[1178，1179] 提出 的 。 在 文章 [1071] 中 ， 
MacLeod 提出 了 一 种 模型 ， 它 基于 结合 属性 和 层次 结 点 的 单一 层次 结构 〈 对 于 数据 库 类 的 查 
询 ) 以 及 两 个 结 点 间 的 超 链接 。Kilpelainen 和 MannilaL906] 讨论 了 通过 指定 部 分 模式 从 层次 
化 文本 中 检索 的 问题 。 在 文章 [415] 中 ，Consens 和 Milo 讨论 了 查询 文本 区 域 的 代数 方法 。 

在 结构 化 文本 检索 的 先驱 论文 中 ， 对 INEX 影响 最 大 的 是 Chiaramella 等 人 所 做 的 FER- 
MI 项 目 中 的 一 部 分 的 工作 [371]。 虽 然 只 有 理论 分 析 ， 但 是 提出 的 框架 是 相关 性 定义 的 基 
础 和 INEX 中 研究 的 许多 检索 任务 。 

从 2002 年 开始 ，XML 检索 工作 开始 在 INEX 框架 下 评价 。 许 多 方法 发 表 在 每 年 在 德国 
Dagstuhl 召开 的 INEX 研讨 会 上 [602，606，609，610，611，612，621]。 这 些 论文 集 的 链 


http: // www. w3. org/ TR/2007/WD-xpath-full-text-10-requirements, 
http; // www. w3. org/TR/2007/WD-xpath-full-text-10-use-cases, 
http: // www. w3. org/TR/xpath-full-text-10/, 


http; // www. sigir. org/forum/index. html, 
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接 可 以 从 INEX 网 站 上 获得 S 。 一 些 早期 的 INEX 方法 发 表 在 由 Fuhr 和 Lalmas 编辑 的 
INEX 杂 志 专 刊 上 [607]。 后 面 的 关于 XML 检索 的 研究 发 表 在 Baeza-Yates 等 人 编辑 的 关于 
XML 检索 的 专刊 上 [119] 。 我 们 作为 例子 在 13.4.3 节 介 绍 的 语言 模型 框架 在 XML 上 的 应 
用 ， 是 基于 由 阿姆斯特丹 大 学 开发 的 XML 检索 系统 [1476]. 

在 INEX 举办 之 前 ，SIGIR Bi? 主办 了 两 次 关于 面向 内 容 的 XML 检索 的 研讨 会 [103， 
334], Luk 等 人 给 出 了 一 个 早期 的 关于 XML 检索 的 综述 [1065]， 它 覆盖 了 很 多 关于 索引 和 搜索 

585] ”结构 化 文本 的 方法 和 挑战 。 近 年 来 Amer-Yahia 和 Lalmas 给 出 了 概述 (尽管 短 ) [47]。 关 于 这 个 
概述 的 更 多 内 容 可 以 参考 Lalmas 所 著 的 书 [965]. 

虽然 没有 在 这 里 进行 讨论 ， 但 在 数据 库 搜索 中 ， 提 出 了 大 量 的 方法 来 进行 结构 约束 的 模 
糊 匹 配 (例如 [45，1438])。 例 如 ，[43] 提出 的 框架 通过 使 用 简单 的 查询 松弛 引入 近似 结 
果 ， 从 而 扩展 查询 结果 。 然 而 ， 大 多 数 方法 并 没有 对 它们 的 有 效 性 进行 评价 。 

INEX 数据 集 的 介绍 和 活动 可 以 在 百科 全 书 中 由 Kazail883] 写 的 “INitiative for the 
Evaluation of XML retrieval (INEX)” #4 H PRA]. Lalmas 和 Tombros 详细 地 按照 年 份 介 
绍 了 INEX 的 评价 方法 [968]. XML 检索 早期 的 测试 集 是 Shakespeare 测试 集 [887]， 它 影 
响 了 INEX 的 建立 。 对 XML 检索 性 能 的 评价 本 身 就 是 一 个 研究 问题 ， 因 为 在 评价 检索 性 能 
中 考虑 结构 会 引入 一 些 问 题 [631，886]。 因 此 ， 组织 了 关于 XML 检索 评价 的 研讨 会 
[1598，1600]， 对 评价 方法 做 出 重大 决策 。 其 中 一 个 具体 的 研究 问题 就 是 开发 合适 的 、 用 于 
XML 检索 有 效 性 评价 的 测度 。 大 量 的 测度 也 被 提出 ， 其 中 一 些 在 百科 全 书 中 由 Pehcevski 
和 Piwowarski ff “Evaluation metrics for structured text retrieval” 的 条 目 中 进行 了 介绍 
[1252], 

XML 检索 中 一 个 重要 的 研究 领域 就 是 所 谓 的 整合 信息 检索 和 数据 库 [44]， 其 目的 是 为 
面向 内 容 和 面向 数据 的 XML 检索 提供 方法 。 近 期 的 在 关于 “Ranking XML query” 的 研讨 
会 中 交换 了 关于 将 其 引入 到 XML 检索 中 的 最 新 的 结果 和 挑战 [46]。Blanken 等 人 编辑 了 关 
于 这 两 类 方法 的 一 部 论文 集 [210]。 最 后 ，Schenkel 和 Theobald 在 百科 全 书 中 所 写 的 
“Integrated IR and DB” 条 目 [1437] 提供 了 关于 这 个 研究 方向 在 XML 检索 中 的 介绍 ， 特 
别 是 INEX。 

Delgado 和 Baeza-Yates 写 了 关于 面向 内 容 的 XML 检索 的 XML 查询 语言 的 综述 
[488]. NEXI 的 介绍 及 其 历史 可 以 在 百科 全 书 中 由 Trotman 所 写 的 “Narrowed Extended 
XPath I (NEXI)” 条 目 中 找到 [1596]。 全 文 XQuery 的 介绍 基于 [42]. 

致谢 
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化 文本 检索 领域 的 相关 条 目 一 起 写 的 。 这 些 条 目 影响 了 本 章 的 内 容 ， 反 之 亦 然 。 我 们 还 要 对 

Benjamin Piwowarski 的 反馈 表示 感谢 。 
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14.1 介绍 


14. 1.1 什么 是 多 媒体 


在 Web 时代， 我 们 生活 在 不 断 增 长 的 海量 数字 化 数据 中 ， 它 们 通过 有 线 、 了 卫星、 音乐 
和 视频 下 载 、 个 人 数码 相机 等 到 达 我 们 的 家 中 。 这 个 趋势 随 着 包含 摄像 头 的 手机 的 出 现 ， 而 
进一步 加 快 ， 人 们 可 以 广泛 地 拍摄 数码 照片 和 短片 ， 并 上 传 到 Web 服务 器 。 快 节奏 的 数字 
化 数据 出 版 和 分 享 ， 促 进 了 娱乐 、 通 信和 计算 机 等 行业 的 融合 ， 也 进一步 巩固 了 数字 化 数据 
出 版 和 分 享 的 趋势 。 

由 于 大 量 可 用 数据 的 存在 ， 很 多 新 应 用 中 都 提出 了 提高 检索 和 操作 数字 化 数据 的 需 
求 ， 例 如 视频 点 播 、 了 语音、 医学 影像 、 多 媒体 数字 图 书馆 、 监 控 、 安 全 、 远 程 教学 和 
事件 检测 等 。 其 基本 含义 是 ， 我们 要 为 如 下 定义 的 多 媒体 开发 更 好 的 管理 方法 、 过 程 和 
工具 : 

多 媒体 实质 上 是 包括 纯 文 本 在 内 的 任何 数字 化 数据 ， 这 些 数据 大 多 数 是 非 结 构 

化 的 ， 用 于 通信 或 捕获 信息 。 除 了 文本 外 ， 多 媒体 还 包括 视觉 和 声音 数据 、 图 片 、 

图 形 、 图 像 、 视 频 、 动 画 、 语 音 、 音 乐 、 声 音 ， 甚 至 3D 可 视 化 。 

除了 数据 外 ， 多 媒体 还 包含 复杂 的 空间 和 时 间 关 系 ， 这 是 从 捕获 、 编 辑 、 压 缩 和 处 理 数 
字 媒 体 的 生命 周期 中 派生 出 来 的 。 在 每 一 个 阶段 ， 核 心 的 挑战 之 一 就 是 在 多 媒体 数据 中 发 现 
隐藏 的 结构 。 


14.1.2 多 媒体 检索 


在 最 普遍 的 形式 下 ， 多 媒体 检索 问题 可 以 表述 如 下 : 

多 媒体 检索 系统 的 任务 是 检索 与 用 户 兴 趣 相 关 的 文字 、 图 像 、 视 频 和 声音 数 

据 ， 并 按照 它们 与 用 户 查询 的 相关 程度 排序 。 需 要 计算 相似 度 〈 即 排序 ) 以 增加 用 

户 找到 相关 答案 的 可 能 性 。 

对 于 检索 ， 用 户 可 以 通过 描述 视频 中 的 一 个 场景 ， 例 如 “在 电影 《The Matrix) H, 
Keanu Reeves 在 直升机 坠毁 中 避 开 子弹 ”。 为 了 能 够 处 理 这 种 需求 ， 我 们 可 以 人 工 对 每 个 电 
影 中 包含 的 数 以 千 计 的 场景 进行 标注 。 虽 然 花 费 很 大 ， 但 是 这 个 工作 只 需要 做 一 次 。 较 少 花 
费 且 具有 较 高 价值 的 是 对 教育 录像 、 监 控 录 像 、 各 种 网 络 媒体 中 发 现 的 经 过 很 少量 处 理 的 视 
频 片 段 进 行 自动 地 索引 。 这 些 索 引 可 以 用 来 回答 用 户 给 出 的 查询 。 这 也 是 多 媒体 检索 中 最 新 
的 工作 ， 例 如 ， 基 于 已 标注 的 影片 检索 相片 、 图 片 或 场景 。 

2000 年 左右 ， 网 站 开始 准许 外 部 用 户 来 贡献 他 们 生成 的 内 容 。 这 个 趋势 逐渐 加 速 ， 因 
此 ， 目 前 所 有 人 可 以 很 容易 地 将 他 们 的 照片 放 在 类 似 Flickr 的 网 站 上 ， 在 YouTube "上 发 
布 视频 ， 甚 至 在 社交 网 络 网 站 (如 Match. com™, Friendster™,. MySpace™, Orkut™, 
Twitter 和 Facebook™) 上 介绍 他 们 自己 。 多 媒体 检索 感 兴趣 的 是 ， 这 些 网 站 全 都 准 
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许 用 户 来 对 内 容 进行 标记 。 然 而 ， 这 些 标 记 却 是 非常 个 性 化 的 ， 对 检索 和 排序 来 说 都 
是 挑战 。 

多 媒体 信息 检索 (Multimedia Information Retrieval, MMIR) 对 多 媒体 数据 中 的 信息 
和 语义 进行 搜索 、 索 引 、 提 取 、 浏 览 和 摘要 。 它 包含 不 同 的 子 领域 ， 例 如 : 

。 内 容 表 示 和 多 媒体 对 象 表示 ,例如 在 图 像 和 视频 中 提取 底层 特征 (颜色 、 形 状 、 


纹理 ) 。 
*。 特征 提取 。 
。 查询 表示 ， 将 高 层 语义 概念 映射 为 底层 特征 。 
。 示例 查询 。 


。 相关 反馈 ， 交 互 查询 。 

。 快速 特征 索引 和 编目 。 

。 集成 搜索 和 浏览 。 

。 基于 内 容 的 多 媒体 搜索 技术 。 

本 章 对 多 媒体 信息 检索 的 所 有 方面 进行 概括 几乎 是 不 可 能 的 。 这 里 ， 我 们 选择 了 多 媒体 
信息 检索 中 几 个 有 代表 性 的 领域 。 我 们 从 对 比 多 媒体 和 文本 的 不 同 ， 以 及 讨论 处 理 多 媒体 的 
挑战 来 开始 介绍 。 


14.1.3 文本 检索 与 多 媒体 检索 的 对 比 


文本 检索 在 很 多 方面 与 图 像 、 音 频 和 视频 检索 不 同 。 在 文本 中 ， 可 以 自然 地 把 单词 当做 
基本 单元 ， 标 点 和 段落 提供 了 结构 信息 。 即 使 是 字体 特征 也 显示 了 强调 。 相 反 ， 多 媒体 数据 
是 典型 的 连续 流 ， 是 包含 很 少 分 界 符 的 线性 故事 。 对 于 非 文 本 媒体 ， 语 义 单元 的 定义 是 取得 
高 质量 搜索 的 基本 步骤 。 例 如 ， 在 视频 中 ， 时 间 是 很 重要 的 ， 内 容 随 时 间 变 化 ， 因 此 需要 利 
用 视频 分 割 将 连续 的 流 分 割 成 可 以 管理 的 块 ， 我 们 将 在 14. 7 节 中 进行 讨论 。 

由 于 语音 识别 的 发 展 ， 现 在 可 以 生成 具有 很 低 错 误 率 的 高 质量 语音 文字 转录 。 然 而 ， 即 
使 是 接近 于 完美 的 转录 也 缺乏 标点 、 段 落 这 些 提供 结构 的 元 素 。 因 此 ， 虽 然 基 于 语音 转录 的 
检索 似乎 非常 接近 于 文本 检索 ， 但 是 实际 中 却 不 是 这 样 。 处 理 这 个 问题 需要 认识 到 ， 在 语音 
转录 中 单词 所 附着 的 时 间 信 息 对 于 检索 是 十 分 有 价值 的 。 例 如 ， 单 词 间 大 的 空 距 可 能 会 指示 
话题 的 转换 。 

文本 文档 和 多 媒体 对 象 大 小 上 的 绝对 差异 也 构成 问题 。 包 含 100 页 内 容 的 文档 通常 需要 
200KB 的 存储 空间 ， 但 是 一 个 75 分 钟 的 音频 ， 在 压缩 为 MP3 文件 之 后 ， 仍 需要 60MB 的 存 
储 空间 。 而 且 ， 存 储 1 小 时 的 MPEG-1 压缩 视频 需要 600MB， 为 了 没有 延迟 地 传输 ， 则 需 
要 1. 5Mbit/s 的 带宽 。 

在 多 媒体 中 浏览 也 不 同 。 尽 管 现在 的 图 形 显示 令 人 印象 深刻 ， 但 是 传统 上 我 们 有 很 强大 
的 专注 于 文本 的 技术 文化 ， 对 于 单词 有 良好 的 定义 和 相对 良好 的 文化 理解 。 比 如 ， 摘 要 和 加 
亮 对 于 文本 来 说 就 比较 容易 理解 。 对 于 多 媒体 而 言 ， 没 有 权威 的 或 者 一 致 认可 的 方法 来 定义 
哪些 素材 应 该 出 现在 文摘 中 ， 也 没有 一 致 认同 的 展示 给 用 户 提供 最 好 的 方法 。 

与 文本 检索 相 比 ， 多 媒体 检索 是 一 个 比较 新 的 学 科 。 虽 然 如 此 ， 图 像 和 视频 检索 引擎 的 
增长 ， 以 及 刺激 人 们 管理 和 分 享 照 片 和 音乐 的 网 站 及 应 用 ， 都 预示 着 多 媒体 已 经 扎 下 根来 。 

本 章 大 致 按照 从 上 到 下 的 方式 组 织 。 我 们 先 介 绍 基本 的 多 媒体 检索 ， 之 后 我 们 再 详细 介 
绍 机 器 学 习 技 术 。 图 14-1 给 出 了 在 多 媒体 检索 系统 中 信息 流 的 几 个 阶段 。 
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图 14-1 多 媒体 信息 检索 系统 的 高 层 软件 架构 ， 展 示 了 多 个 阶段 的 信息 流 


14.2 挑战 


14.2.1 语义 鸿沟 
在 多 媒体 信号 的 内 容 和 意义 之 间 通 常 存在 着 很 大 的 鸿沟 。 这 通常 称 为 语义 鸿沟 ， 
图 14-2 给 出 了 象征 性 的 说 明 。 工 资 表 中 数字 和 它 的 意义 之 间 的 语义 鸿沟 非常 小 ， 文档 中 
的 单词 及 其 总 体 信息 和 含义 间 会 有 一 些 语义 鸿沟 。 而 视频 和 它 的 语义 之 间 有 着 较 大 的 语 
义 鸿沟 。 [589] 
视频 音乐 信号 类 型 


语音 
文本 语义 鸿沟 
知识 
语义 意义 
图 14-2 语义 鸿沟 ， 即 多 媒体 信号 与 其 意义 间 的 鸿沟 ， 越 大 表示 信 
号 的 类 型 越 复杂 ， 例 如 从 单词 到 音乐 
物体 识别 是 图 像 和 音频 处 理 中 最 难 的 问题 之 一 。 然 而 我 们 全 都 可 以 做 到 : 看 到 一 个 图 
片 ， 即 使 不 到 1 秒 钟 ， 我 们 也 可 以 从 中 发 现 人 脸 和 其 他 种 类 的 物体 。 虽然 在 商业 系统 中 光学 
文字 识别 和 “也 许 ) 人 脸 识 别 可 以 工作 得 够 好 ， 但 是 它们 不 能 直接 应 用 于 更 一 般 的 对 象 。 标 
注 图 像 成 分 或 者 在 波形 上 分 析 声 音 都 还 是 没有 解决 的 问题 ， 也 是 许多 研究 的 主题 [148， 
418], 今天 的 多 媒体 信息 检索 系统 很 依赖 于 用 户 生 成 的 单词 (或 者 标签 ) [516，1644]， 并 
且 在 生成 答案 时 大 多 数 忽 略 掉 了 内 容 特征 。 590 
即使 在 图 片 中 物体 是 已 知 的 ， 图 像 或 者 声音 信号 能 够 携带 主观 性 和 情绪 解释 等 复杂 的 特 
性 ,但 这 些 很 难 用 计算 机 来 重复 。 在 语音 中 ， 这 些 非 语 义 信 息 由 信号 的 韵律 传达 。 这 就 使 得 
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“不 要 停 ” 和 “不 要 ! 停 !1” 之 间 产 生 了 区 别 。 但 是 ， 即 使 在 最 好 的 情况 下 ， 这 种 情感 信息 也 
很 难 识别 ， 更 不 用 说 传达 给 信息 检索 系统 的 用 户 [1492]j。 虽 然 有 些 语音 回答 系统 确实 在 寻 
找 韵律 信息 来 对 客户 的 情感 状态 进行 评估 ， 但 绝 大 多 数 的 信息 检索 系统 没有 任何 方法 来 表达 
这 种 信息 。 


14.2.2 ”特征 歧义 性 


多 媒体 信息 检索 的 另 一 个 挑战 是 由 特征 的 歧义 造成 的 。 图 14-3 给 出 了 罕 孔 问题 的 例子 。 
根据 在 T=0 和 =1 时 刻 的 两 张 快 照 ， 我 们 可 以 看 到 ， 在 这 个 图 中 一 条 线 向 右 移 动 。 为 了 
效率 的 原因 ， 一 个 简单 的 运动 检测 器 只 对 图 片 的 一 部 分 进行 评估 ， 叫 做 窥 孔 。 罕 孔 将 决策 
(和 计算 代价 ) 缩小 到 图 片 的 一 部 分 ， 我 们 可 以 从 图 14-3 右边 的 两 个 快照 看 到 。 不 幸 的 是 ， 
当 从 罕 孔 看 时 ， 这 个 移动 被 看 做 是 对 角 的 。 

T=0 T=l AFL: T=0 RFL: T=1 


2 
w 






TER 
se 2 ee ee 
A E 





M n a 
uun 





图 14-3 —MEDRLARMAT. PORE BH. PEA 
个 很 小 的 孔 来 看 通常 为 了 效率 的 原因 会 这 样 做 )， 这 条 线 看 上 去 
是 向 右 下 角 移动 
造成 窥 孔 问题 的 原因 是 在 一 个 窗口 〈 窥 孔 ) 内 缺乏 全 局 信息 导致 的 。 当 我 们 考虑 整个 图 
像 时 有 很 强 的 证 据 ， 特 别 是 线 的 端点 出 现 更 复杂 的 变化 。 但 是 这 种 自 顶 向 下 的 综合 用 基于 机 
器 的 算法 来 实现 也 是 困难 的 。 


14.2.3 机 器 生成 的 数据 
因为 数据 的 不 断 增长 ， 多 媒体 是 挑战 同时 也 是 热点 。 图 14-4 估计 了 未 来 几 年 多 媒 
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机 器 生成 的 数据 联机 存储 


所 有 医学 图 像 
存储 的 医学 数据 
监控 字 节 数 

城市 区 域 监控 数据 


个 人 多 媒体 
数据 库 


GB/ 美 国人 力 资 本 /年 


Web 数 据 


文本 数据 





2000 2005 2010 


图 14-4 机 器 生成 的 数据 随时 间 增 长 。 需 要 注意 的 是 ， 纵 轴 上 的 单位 是 
GB/ 人 /年 。 感 谢 IBM Almaden 研究 中 心 提 供 图 片 
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体 产品 的 增长 ， 以 及 能 收集 到 的 数据 。 这 里 显示 的 趋势 是 大 概 的 。 对 于 文本 的 估计 是 
基于 以 下 的 假设 来 确定 的 上 限 : 每 个 人 一 天 打字 8 小 时 ， 每 分 钟 50 个 单词 ， 每 天 都 这 
样 工作 〈 这 个 表格 是 平 的 ， 没 有 变化 的 ， 存 在 上 限 )。 监 控 数 据 是 由 2002 年 在 伦敦 市 
中 心 国定 摄像 头 的 数量 估计 的 ， 还 根据 这 个 推测 了 美国 所 有 城市 中 摄像 头 的 数量 。 医 
疗 数据 根据 在 全 数字 化 医院 中 每 个 病人 的 平均 字 节 数 ， 并 假设 未 来 几 年 所 有 的 医院 记 
录 都 会 进行 数字 化 改造 。 人 们 制造 并 且 消 费 了 大 量 的 多 媒体 数据 ， 这 需要 大 量 的 复杂 
的 服务 器 群 来 正确 地 存储 和 检索 。 


14.3 ”基于 内 容 的 图 像 检索 


在 多 媒体 上 的 一 些 早期 工作 目标 是 发 现 和 提取 与 图 像 内 容 相 关 的 特征 。 虽 然 其 原型 产品 
在 商业 上 并 不 成 功 ， 但 是 它们 所 开拓 的 技术 是 现在 多 媒体 处 理 的 重要 组 成 部 分 。 这 些 技术 被 
概括 地 称 为 基于 内 容 的 图 像 检 索 。 

问题 

基于 内 容 的 图 像 检索 的 任务 是 基于 图 像 内容 进 行 检 索 。 例 如 ， 考 虑 示例 查询 

(Query-By-Example, QBE) 方法 。 在 这 个 方法 中 ， 用 户 提 供 一 张 图 片 ， 系 统 找到 

与 其 相似 的 其 他 图 片 。QBE 系统 忽略 掉 图 片 所 附着 的 语义 信息 ， 而 是 使 用 图 片 的 

简单 特征 ， 例 如 颜色 、 纹 理 、 形 状 和 显著 点 来 检索 和 排序 结果 。 

在 所 有 的 QBE 系统 中 ， 最 好 的 排序 函数 都 是 基于 特征 不 变性 的 ， 即 那些 不 会 受到 姿势 、 
相机 焦距 和 焦点 、 光 照 、 相 机 角度 和 运动 等 变量 影响 的 图 像 属性 。 但 是 这 些 变 量 的 改变 都 会 
影响 到 在 图 像 中 组 成 物体 的 像素 ， 这 也 说 明 直 接 使 用 像素 进行 比较 是 永远 行 不 通 的 。 代 震 像 
素 比 较 的 通常 做 法 是 采用 整个 图 片 的 特征 摘要 ， 例 如 平均 颜色 。 


14.3.1 基于 颜色 的 检索 


图 像 检 索 通 常 将 颜色 当做 全 局 特征 。 这 就 是 说 ， 它 并 不 依赖 于 图 像 的 分 辩 率 ， 即 使 颜色 
的 位 置 对 于 目标 感知 非常 相关 。 人 例如， 考虑 含有 美国 国旗 及 红 、 蓝 条 纹 背景 的 美国 邮票 M 
张 看 上 去 十 分 不 同 的 邮票 ， 也 会 具有 几乎 相同 的 全 局 颜色 分 布 。 

我 们 在 QBE 系统 中 使 用 颜色 作为 特征 ， 比 较 不 同 图 片 间 的 颜色 直方 图 。 颜 色 量化 到 N 
个 槽 中 的 一 个 〈 我 们 会 在 14. 8. 2 节 讨 论 颜 色 表 示 )， 对 每 个 槽 中 像素 的 数量 进行 比较 。 颜 色 
直方 图 的 好 处 就 是 ， 即 使 是 视角 或 者 构图 的 大 改变 也 不 会 改变 每 种 颜色 的 平均 比例 。 也 就 是 
说 ， 颜 色 直方 图 测度 与 视角 和 图 像 的 分 辩 率 无 关 。 因 此 ， 不 需要 对 前 景 和 背景 进行 分 割 。 在 
图 像 [中 ， 颜 色 c 的 直方 图 定义 为 : 

hilci) = PCcolor(p) =a |p € D (14-1) 
其 中 P(color(p)=c. |pED 表示 从 图 像 1 中 随机 选取 一 个 像素 p， 其 颜色 是 c; 的 概率 。 

我 们 可 以 通过 加 入 每 种 颜色 在 图 片上 的 相关 位 置信 息 ， 即 颜色 的 空间 相关 性 [787] 来 
扩充 颜色 直方 图 。 为 此 ， 我 们 通过 统计 颜色 对 Cc, ¢) 的 数量 ， 以 及 颜色 为 c 和 ci 的 两 个 
像素 之 间 的 距离 ~， 构建 颜色 自 相 关 图 。 表 示 为 如 下 形式 

hilciscir) = P(color(p,) =c; A color(p2) = c; |r = d( pı — p:)) (14-2) 
其 中 d(pi— pp.) 表示 两 个 从 图 像 工 中 随机 选择 的 像素 pi 和 ps 间 的 距离 。 图 14-5 RATA 
有 相同 颜色 直方 图 的 图 片 间 自 相 关 图 的 巨大 不 同 [787]. 
例子 1: 基于 颜色 的 内 容 检 索 
利用 颜色 直方 图 (或 者 自 相 关 图 ) 的 图 像 检索 通过 预先 计算 〈 和 存储 ) 每 个 图 像 的 直方 
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图 来 实现 。 给 定 查询 图 像 ， 我 们 可 以 简单 地 查找 具有 最 接近 直方 图 的 图 片 。 使 用 这 种 技术 的 
一 个 应 用 例子 是 QBIC 系统 所 做 的 工作 [568]， 如 图 14-6 Bra. 
0.09 
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图 14-5 具有 相同 全 局 颜色 分 布 〈 即 颜色 直方 图 ) 的 两 张 不 同 图 片 的 自 相关 图 对 比 。 注 意 ， 自 
相关 图 在 前 景 颜色 〈 黑 〉 间 的 不 同 ， 即 右 图 上 面 两 条 线 





图 14-6 使 用 自 相 关 图 像 检索 的 两 个 例子 。 左 边 一 组 使 用 平均 颜色 ， 而 右边 一 组 使 用 颜色 自 相 关 
图 。 查 询 图 片 在 每 组 图 片 的 左上 角 。 感 谢 IBM Almaden 研究 中 心 ，QBIC 系统 的 


Jim Hafner 


基于 颜色 直方 图 检索 中 最 大 的 问题 是 感知 特性 ， 叫 做 “颜色 一 致 性 ”。 人 类 具有 强大 的 
识别 物体 颜色 的 能 力 ， 几 乎 不 受 光 照 的 影响 。 芝 果 看 上 去 是 红色 的 ， 无 论 我 们 是 在 白天 还 是 
在 室内 灯光 下 看 它 。 人 类 具有 很 好 的 感知 同 种 颜色 的 能 力 ， 不 受 周 边 环境 的 影响 ， 但 是 颜色 
直方 图 就 不 一 样 了 。 此 外 ， 物 体 的 确切 颜色 对 于 它 的 识别 的 重要 性 很 小 。 


14.3.2 纹理 
在 基于 内 容 的 检索 中 ， 第 二 个 有 用 的 特征 是 纹理 。 当 我 们 想到 纹理 时 ， 我 们 会 想到 在 触 
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摸 物 体 、 织 物 、 物 质 ， 或 者 任何 能 触 知 的 表面 时 的 感觉 。 例如， 我 们 说 “这 个 桌子 的 纹理 是 
粗糙 的 、 沙 质 的 或 者 光滑 的 ”。 纹 理 也 是 图 像 中 物体 的 一 个 属性 一 一 杰 子 图 像 的 纹理 和 草地 
图 像 的 纹理 不 同 。 与 颜色 类 似 ， 纹 理 也 是 图 像 和 视频 检索 中 的 一 个 关键 特征 。 然 而 ， 与 颜色 
不 同 ， 它 是 图 像 的 区 域 特征 ， 而 不 是 单 点 特征 。 

在 图 像 处 理 中 ， 纹 理 用 来 度量 图 像 中 元 素 的 重复 度 。 这 是 一 个 可 感知 的 现象 ， 很 容易 被 
人 类 发 现 , 但 是 用 数学 描述 却 具有 挑战 性 。 4 
更 确切 地 说 ， 纹 理 刻 画 了 图 像 强 度 的 重复 
模式 ， 这 些 模 式 如 果 用 来 区 分 物体 就 太 细 
微 了 。 大 多 数 的 纹理 度量 与 强度 和 方向 Pi a 
无 关 。 L ~~a 

共生 纹理 测度 

最 简单 的 纹理 测度 是 使 用 叫做 灰 度 共 
Æ ME (Gray-Level Co-occurance Matrix, 
GLCM) [698] 的 共生 矩阵， 它 总 结 了 图 
像 中 像素 对 之 间 光 照 模式 的 信息 。 要 考虑 
的 像素 对 由 向 量 避 确定 ， 它 确定 了 每 个 像 图 147 were, 符合 成 一 起- 二 忆 的 像 
素 对 之 间 的 方向 和 距离 ， 如 图 14-7 所 示 。 BM Co, pol MATH. TMI R 
DRERI (s p) 有 由 避 确 定 的 方向 素 是 GLCM HRA PRAA 
和 距离 ， 叫 做 避 对 齐 。 我 们 先 定义 第 一 个 概率 Pi(c:，c;， 如 )， 表 示 在 图 像 I 中 找到 避 对 齐 
的 像素 对 ， 其 颜色 为 c; 和 cj 的 概率 。 

Pileci scs 0) = Ptcolor(p,) = ci, color(p2.) = c | p: — Pi = Vo) (14-3) 

其 中 p 和 ps 是 图 像 工 中 的 像素 。 给 定 了 上 述 概率 ， 不 同 种 类 的 统计 信息 可 以 用 来 在 GLCM 
中 归纳 信息 ， 如 下 所 述 。 

能 量 : 关于 也 对 齐 的 像素 的 亮度 测度 。 








1 (CisCjo v) = > DyPileisc 0)? (14-4) 
H: 关于 如 对 齐 像素 分 布 的 非 均 匀 性 测度 。 
Filic 0) = 5 DIP ei s;. W)logP: lcies T) (14-5) 


HP P, v, i, j 的 定义 与 前 相同 。 
对 比 度 : 关于 了 对齐 像素 对 间 的 差异 测度 。 
Cilcisc;s V) = >> D1 — $9? PCs) (14-6) 


其 中 由 表示 像素 的 光照 强度 测度 。 

均匀 性 : 关于 像素 间 的 相似 度 测度 。 

> Pilcis,c;, w) 
Hilis v) = 2 2 TFT (14-7) 

有 兴趣 的 读者 可 以 从 纹理 测度 中 找到 更 多 信息 ， 例 如 14. 10 节 中 的 粗糙 性 和 方向 性 。 

例子 2: 基于 纹理 的 内 容 检索 

图 14-8 给 出 了 一 个 纹理 检索 的 例子 ， 由 QBIC 系统 [568] 实现 。 这 个 系统 结合 三 种 纹 
理 测度 一 一 粗糙 性 、 对 比 度 和 方向 性 ， 构 造 了 一 个 特征 向 量 。 用 户 给 定 了 一 个 样 例 图 片 ， 显 
示 在 每 组 图 片 的 左上 角 ，QBIC 系统 基于 纹理 找到 与 它 相 似 的 图 片 。 


593 


594 


595 


436 。 第 14 章 多 媒体 信息 检索 





图 14-8 使 用 纹理 的 图 像 检索 例子 。 每 组 中 左上 角 图 片 是 查询 图 片 。 感 谢 QBIC 系统 的 
Jim Hafner[ 568] 


14. 3.3 显著 点 


基于 颜色 和 纹理 的 检索 算法 都 使 用 覆盖 整个 图 像 的 全 局 直方 图 。 更 复杂 的 方法 是 构建 一 
个 特征 模型 ， 仅 在 图 像 “ 感 兴趣 ”的 区 域 结合 颜色 和 空间 频率 信息 。 这 个 方法 就 是 分 析 图 像 
以 找到 其 中 特别 独特 的 点 (因此 对 于 感知 系统 来 说 是 显著 的 )。 相 同 种 类 的 显著 点 构成 可 计 
数 的 “单词 ”。 

显著 点 [1051] 是 一 种 在 图 像 中 发 现 多 尺度 不 变 特征 的 技术 。 这 些 点 对 于 包括 光照 、 相 
机 位 置 、 相 机 或 者 物体 角度 在 内 的 变换 鲁 棒 性 很 好 。 显 著 点 往往 出 现在 角 点 或 者 图 像 中 的 独 
特 位 置 ， 如 图 14-9 所 示 。 关 于 显著 点 的 典型 操作 包括 关键 点 [161]、 稳 态 方向 (stable ori- 

596] entation) 和 和 纹理 中 的 局 部 几何 [1525」。 多 种 方法 的 比较 可 以 参见 [1612]. 





建筑 物 场 景 中 分 别 找 出 的 典型 的 显著 点 ， 如 例子 3 中 所 述 。 下 面 的 图 像 给 
出 了 相同 图 像 的 另 一 种 显著 点 。 注 意 到 只 有 很 少 的 建筑 物 ) 角 点 出 现在 
叶子 上 ， 反 之 亦 然 。 图 片 授权 使 用 [1525] 


例子 3: 基于 显著 点 的 内 容 检索 
图 像 相 似 度 基 于 归纳 图 像 中 显著 点 的 统计 信息 来 计算 。 每 个 显著 点 周边 图 像 的 特征 利用 
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简单 的 光谱 过 滤器 进行 刻画 ， 它 是 基于 人 类 感知 的 ， 对 图 像 大 小 和 方向 变化 抽样 得 到 。 这 就 
形成 了 描述 每 个 点 的 基本 “字母 ”。 将 这 些 值 进行 聚 类 〈 如 k 均值 算法 ) [517]， 得 到 语言 中 
的 “单词 ”。 图 像 用 每 个 单词 出 现 的 次 数 来 描述 。 类 似 概率 潜在 语义 分 析 (probabilistic La- 
tent Semantic Analysis, pLSA) 的 方法 可 以 用 做 图 像 匹配 [242]。 图 14-10 给 出 了 基于 显 
著 点 的 内 容 检索 的 结果 。 





图 14-10 ”基于 显著 点 的 图 像 相似 度 计算 任务 的 检索 结果 。 每 行 中 第 一 个 图 像 是 查询 
图 像 。 图 像 授权 使 用 [776] 


14.4 声音 和 音乐 检索 


在 本 节 中 ， 我 们 讨论 多 媒体 中 有 关 音 轨 和 音乐 检索 的 问题 。 这 些 问题 有 多 种 的 形式 ， 我 
们 综合 如 下 。 

问题 

.声音 和 音乐 检索 中 的 基础 问题 是 检索 符合 模糊 定义 的 声音 信息 需求 《查询 ) 的 
音 轨 。 这 个 问题 有 很 多 形式 ， 例 如 : 1) 给 定 一 个 小 的 声音 片段 ， 找 到 一 个 与 它 相 
符 的 音频 对 象 ， 叫 做 指纹 识别 (fingerprinting); 2) 给 定 一 个 音 轨 ， 识 别 出 其 中 包 
含 的 文本 信息 ， 叫 做 语音 识别 (speech recognition); 3) 给 定 一 个 音 轨 ， 识 别 出 里 
面 的 说 话 人 ， 叫 做 说 话 人 识别 (speaker identification); 4) 给 定 一 个 文本 查询 ， 
检索 符合 这 个 查询 的 语音 文档 。 
正如 我 们 这 里 所 讨论 的 ， 多 媒体 系统 的 任务 就 是 解决 这 个 问题 中 的 各 种 形式 。 


14.4.1 指纹 识别 


音频 指纹 识别 是 音频 信息 检索 任务 中 的 一 个 成 功 商 业 应 用 。 在 指纹 识别 中 ， 我 们 使 用 很 
小 的 一 个 声音 片段 来 检索 一 个 大 规模 的 数据 库 ， 查 找 一 个 精确 的 匹配 。 这 个 过 程 很 复杂 ， 因 
为 查询 经 常 是 损坏 的 一 一 一 个 典型 的 例子 是 由 移动 电话 在 酒吧 的 吵闹 环境 下 录制 下 来 的 一 段 
音 片 段 。 而 信息 检索 系统 的 任务 是 从 在 200 万 〈 商 业 应 用 ) 首 歌曲 中 找到 包含 这 个 查询 的 
歌曲 。 这 个 任务 叫做 指纹 识别 ， 它 变 得 越 来 越 重 要 ， 因 为 我 们 希望 收集 很 大 规模 的 内 容 数 据 
库 ， 并 在 其 中 找到 重复 或 者 避免 包含 非法 内 容 。 

一 个 关键 的 方法 是 在 声音 的 频谱 时 间 分 布 〈 声 谱 图 ) 上 寻找 大 的 变化 ， 并 且 将 这 些 声音 
信号 中 最 显著 的 部 分 进行 编码 [1664]。 其 难度 在 于 这 个 过 程 在 使 声音 信号 发 生 劣 化 的 常见 
情况 下 需要 具有 和 鲁 棱 性 ， 例 如 ， 很 大 的 背景 噪声 、 移 动 电话 上 的 廉价 话 简 和 为 了 话音 而 不 是 
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音乐 优化 的 压缩 算法 。 因 为 谱 峰 的 位 置 相 对 稳定 〈 即 使 加 入 了 噪声 )， 所 以 一 系列 的 谱 峰 组 


成 了 可 用 于 识别 的 一 段 音 频 指 纹 ， 如 图 14-11 所 示 。 
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图 14-11 说 明了 使 用 Madonna 的 歌曲 “Borderline” 时 ， 指 纹 识 别 的 鲁 棒 性 。 最 上 面 的 图 表示 
了 原始 歌曲 的 声 谱 图 和 一 个 带 有 错误 的 拷贝 。 中 间 图 表示 了 谱 峰 的 位 置 。 在 这 个 噪声 
层次 上 ， 原 始 歌曲 和 其 拷贝 间 大 约 有 15%% 一 20%% 的 对 应 谱 峰 不 相同 


14. 4.2 语音 识别 


语音 识别 是 将 包含 在 音 轨 中 的 单词 识别 出 来 的 过 程 。 如 果 满 足 两 个 条 件 ， 它 可 以 达到 较 
好 的 效果 : D 听觉 环境 是 受 限 的 ， 因 此 麦克 风 只 能 听 到 单一 的 语音 ， 并 且 没 有 背景 噪声 和 
BR: 2) 任务 是 良好 定义 的 ， 因 此 语言 模型 可 以 限定 在 任何 一 个 时 间 点 上 需要 识别 的 单词 
数量 。 但 是 ， 多 媒体 信号 通常 不 能 同时 满足 这 两 个 条 件 ， 不 论 媒体 是 为 娱乐 开发 的 ， 或 者 是 
在 家 里 临时 录制 的 ， 再 或 者 是 为 了 监控 目的 。 

1. 隐 马 尔 可 夫 模 型 

语音 识别 通常 采用 隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM) 来 查找 能 最 好 地 
解释 所 录制 数据 的 单词 模型 序列 。 这 些 模型 包含 合法 的 音素 序列 〈 语 言 模 型 ，Language 
Model, LM) 信息 和 它们 的 发 音信 息 (音素 的 听觉 模型 ，Acoustic Model, AM). MAX 
些 信息 约束 到 单一 的 概率 框架 下 ， 在 听觉 错误 和 语言 错误 中 进行 平衡 。 对 于 每 组 可 能 的 音 
素 ，HMM 给 出 对 应 单词 的 音素 序列 与 听 到 的 声音 间 的 概率 估计 。 图 14-12 举例 说 明了 关于 
这 两 个 模型 的 一 个 简单 的 HMM. 


第 14 章 多 媒体 信息 检索 。 439 


Three Three Three 
单词 “one”,“two”,“three” 的 语言 模型 ” Two Two Two 


One ne One ~ One 


表示 单词 “one” 音素 的 单词 模型 a 


音素 /人 /的 声学 〈 音 素 ) 模型 





14-12 ”用 来 识别 数字 串 的 HMM 模型 的 一 部 分 。 语 言 模 型 用 来 描述 有 效 的 单词 ， 例 子 中 包含 
三 个 数字 。 每 个 单词 模型 描述 了 用 于 对 这 个 单词 建 模 的 音素 。 音 素 模型 包含 自 环 的 三 
个 状态 序列 ， 描 述 了 音素 怎么 发 音 的 。 音 素 模 型 中 的 每 个 状态 对 应 了 特定 的 Mel 频率 
倒 谱系 数 (Mel-Frequency Cepstral Coefficient, MFCC) 向 量 出 现 的 概率 


HMM 模型 将 语音 信号 建 模 为 静止 状态 序列 一 一 认为 信号 是 不 变 的 ， 当 它 改 变 时 HMM 
移 向 下 一 个 新 的 状态 。 每 个 状态 利用 概率 密度 函数 对 语音 信号 的 一 部 分 进行 建 模 。 这 个 密度 
函数 对 说 话 人 说 出 给 定 的 音素 时 ， 在 特征 空间 中 每 个 点 被 听 到 的 可 能 性 进行 建 模 。 为 了 处 理 
语音 的 动态 性 ， 每 个 听觉 (音素 ) 模型 包含 3 一 5 个 状态 ， 每 个 状态 使 用 高 斯 混合 模型 
(Gaussian Mixture Model, GMM) 描述 Mel 频率 倒 谱 系数 (Mel-Frequency Cepstral Coef- 
ficient, MFCC) 向 量 。 

2. 高 斯 混合 模型 

有 多 种 方法 发 出 单词 cat 中 的 音素 /a/ 的 音 。 在 HMM 中 ， 这 个 问题 利用 每 个 音素 的 
GMM 模型 来 处 理 。GMM 模型 是 一 个 使 用 少量 GEA) 高 斯 函数 建 模 的 概率 密度 ， 它 使 用 
39 维 空间 (因为 MFCC MBA 13 个 系数 〈14. 4.5 节 中 人 介绍， 我们 增加 了 13 个 一 阶 时 间 导 
数 和 13 个 二 阶 时 间 导 数 )。 多 维 高 斯 模型 的 基本 形式 是 : 


= 1 = 3 
Girip D) = ga~. 9 6x WDE a p) (14-8) 


其 中 z 是 N 维 空间 中 的 一 个 数据 点 ，/ 是 高 斯 均值 的 位 置 ，(*)" ARERR E, TAH 
了 数据 间 协 方差 的 矩阵 。 通 过 释 加 高 斯 模型 来 得 到 混合 模型 ， 每 个 分 量 表示 听觉 空间 中 不 同 
部 分 的 概率 ， 

GMM(x.4 4} {Z})= DIAG; (xpi rE;) (14-9) 


其 中 G; 表示 一 个 如 式 〈14-8) 所 述 的 多 维 高 斯 模型 ，A, 表示 权重 系数 。 一 般 来 说 ， 由 MF- 
CC 表示 形式 的 对 角 协 方差 〈 和 否则 需要 太 多 数据 )， 这 些 协 方差 矩阵 都 是 对 角 阵 。 

在 更 复杂 的 情况 下 ，/a/ 在 “cat” 中 的 音 与 /a/ 在 “bat” 中 的 音 听 起 来 完全 不 同 。 这 是 
因为 在 一 个 音素 前 面 和 后 面 的 声音 会 改变 中 间 音 素 的 发 音 。 所 有 ASR 系统 都 用 这 种 上 下 文 
相关 音素 加 以 处 理 。 如 果 有 足够 的 数据 ， 那 么 这 种 概率 可 以 更 准确 地 佑 计 ， 并 训练 更 详细 的 
模型 ， 从 而 为 每 一 种 音素 出 现 的 上 下 文 构造 不 同 的 HMM 模型 。 因 此 ， 对 于 在 “cat” 与 
“bat” 的 音素 序列 ， 就 会 有 不 同 的 三 音素 模型 〈 一 种 与 在 其 之 前 和 之 后 出 现 的 音素 相关 的 音 
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RRA). 

3. 语言 和 声学 模型 之 间 的 相互 作用 

语言 模型 使 得 语音 识别 系统 可 以 运转 。 语 言 模 型 限定 了 可 能 的 单词 数量 ， 大 大 地 降低 了 出 现 
错误 的 机 会 。 在 最 简单 的 情况 下 ， 语 言 模 型 可 以 只 准许 10 个 数字 出 现 。 这 种 情况 下 ， 我 们 可 以 
说 词汇 表 的 大 小 就 是 10， 语 言 的 困惑 度 也 是 10。 典 型 的 大 词汇 表 语音 识别 系统 的 困惑 度 可 以 达到 
60， 表 示 一 句 话 中 每 个 给 定 的 单词 后 面 平均 有 60 个 可 能 的 单词 。 因 为 识别 器 由 语言 模型 高 度 限 
定 ， 所 以 ， 即 使 对 于 移动 电话 等 非常 糟糕 的 通信 频道 ， 语 音 识 别 也 可 以 生效 。 


14. 4.3 ”说话 人 识别 


说 话 人 识别 任务 是 确定 谁 在 说 话 而 不 关心 他 们 所 说 的 话 。 这 对 于 确定 画面 上 的 新 闻 主 播 
或 者 在 家 庭 录像 上 出 现 的 人 很 有 用 。 

有 两 种 常见 方法 : 说 话 人 相关 的 语音 识别 和 GMM 密度 估计 。 最 好 的 解决 方案 是 语音 识 
别 系 统 对 每 个 特定 的 说 话 人 进行 调整 。 说 话 人 相关 的 系统 对 每 个 说 话 人 根据 其 发 音 特点 进行 
了 调整 ， 从 而 有 一 个 唯一 的 模型 。 但 是 ， 对 于 大 规模 人 群 收集 说 话 人 相关 的 信息 是 很 花费 时 
闻 的 ， 也 不 太 现实 。 

替代 的 方法 是 用 单一 的 《大 型 ) GMM 等 较 通 用 的 模型 用 来 获取 一 个 说 话 人 的 所 有 声音 
[1347]。 这 种 情况 下 ，GMM 可 能 会 需要 2000 个 分 量 来 对 说 话 人 的 说 话 方式 建 模 。 大 量 的 
分 量 是 需要 的 ， 因 为 系统 不 是 试图 识别 单一 的 单词 ， 即 所 有 的 音素 在 任何 时 间 都 可 能 出 现 。 
使 用 GMM 的 说 话 人 识别 通常 需要 超过 10 秒 钟 的 语音 来 做 出 可 靠 的 判断 。 

说 话 人 识别 可 以 基于 谁 在 讲话 来 帮助 切 分 多 媒体 信号 ， 我 们 将 在 14. 7. 4 节 中 进行 介绍 。 


14.4.4 语音 文档 检索 


语音 文档 检索 用 来 处 理 根据 用 户 查 询 〈 可 能 是 文本 形式 ) 来 检索 语音 文档 (spoken 
document) 的 问题 。 为 了 解决 这 个 问题 ， 最 常 使 用 的 是 两 种 语音 特有 的 方法 : 关键 词 发 现 
和 音素 识别 。 这 两 种 技术 都 比 一 般 的 使 用 语音 识别 器 进行 言语 转换 的 信息 检索 技术 的 鲁 棒 性 
要 好 。 

第 一 个 方法 是 关键 词 发 现 ， 即 识别 在 语音 文档 中 预先 选择 好 的 关键 词 。 它 是 有 效 的 ， 因 
为 关键 词 通常 在 听觉 上 是 很 独特 的 。 每 个 关键 词 包含 很 多 信息 ， 关 键 词 的 出 现 可 以 容易 地 发 
现 ， 并 且 关 键 词 具 有 很 高 的 信息 量 。 这 个 方法 的 应 用 是 有 限 的 ， 因 为 用 户 必须 在 查询 中 包含 关 
键 词 。 如 果 一 个 用 户 不 能 想起 与 信息 需求 相关 的 关键 词 ， 那 么 这 个 方法 就 不 起 作用 [30j。 

第 二 个 方法 是 音素 识别 (phonetic recognition)， 即 在 音素 层 进行 检索 。 举 例 说 明 ， 短 
语 “it7s hard to recognize speech” 与 “it’s hard to wreck a nice beach” 在 语音 上 很 相似 ， 
即使 它们 在 字符 串 上 不 怎么 匹配 。 因 此 ， 我 们 想 独立 于 用 户 查 询 中 的 文本 ,识别 出 这 些 音 素 
上 的 匹配 。 

音素 识别 的 关键 之 一 是 处 理 在 声音 层 的 不 匹配 问题 。 使 用 传统 的 信息 检索 技术 ， 单 词 
“bat” 和 “bet” 是 完全 不 同 的 。 但 是 ， 在 语音 上 这 两 个 单词 上 的 /a/ 和 /i/ 很 容易 混淆 。 
Amir[48] 将 这 些 类 似 的 声音 组 合 在 一 起 叫做 元 音素 〈metaphone)。 这 些 组 包括 元 音 ， 如 
AA, AE, AH, AO, AW, AX, AXR, AY, EH, ER, URME. W TH, FS. 在 一 
组 内 ， 元 素 认为 是 相同 的 。 


14.4.5 音频 基础 知识 
对 于 信息 检索 ， 音 频 有 很 多 特性 ， 正 如 我 们 在 上 面 讨论 的 多 个 检索 模型 。 最 重要 的 是 ， 
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信号 中 的 信息 不 能 直接 从 音频 的 波形 中 使 用 一 一 它 像 视频 一 样 具有 很 大 的 语义 鸿沟 。 因 为 在 
音频 信号 中 的 信息 不 是 直接 可 见 的 ， 我们 必须 分 析 音 频 信 号 来 从 中 提取 基本 信息 。 这 是 一 个 
基本 步 又， 而 且 是 音频 检索 系统 中 的 一 个 重要 部 分 。 

音频 使 用 波形 来 记录 随 着 时 间 的 推移 气压 沿 着 声波 的 变化 。 为 了 使 这 些 记录 具有 原始 保 
真 度 ， 并 且 不 遗漏 人 可 以 感知 到 的 任何 信息 ， 波 形 的 测量 必须 多 达 每 秒 44 100 次 
(44. 1kHz)。 包 含 一 个 很 短 句 子 的 1 秘 钟 的 音频 数据 就 有 很 多 。 

由 多 个 声 源 混合 产生 的 声波 是 复杂 信号 。 例 如 ， 一 个 很 大 的 湖 及 其 周围 。 独 立 的 声 源 包 
括 湖 上 的 船 在 航行 ， 男 孩子 在 扔 石头 ， 动 物 在 涉 水 ， 以 及 鸟 在 更 食 ” 。 这 些 对 象 都 在 制造 沿 
着 水 面 传播 的 波纹 。 考 虑 连接 湖 的 两 个 小 通道 ， 假 设 我 们 知道 关于 湖 的 信息 都 是 通过 进入 这 
个 通道 的 波形 的 又 加 而 推断 的 。 解 开 这 个 混杂 的 成 堆 的 信息 是 困难 的 问题 ， 叫 做 听觉 场景 分 
析 (Auditory Scene Analysis，ASA) 。 为 了 克服 这 个 复杂 性 ， 我 们 假设 每 次 只 有 一 个 声 源 ， 
这 就 大 大 简化 了 从 听觉 信号 中 分 析 和 提取 信息 的 难度 。 

对 于 信息 检索 ， 每 个 声音 场景 中 的 对 象 有 三 个 主要 维度 : 响 度 、 音 调和 音色 。 从 信息 检 
索 的 观点 来 看 ， 我 们 可 以 忽略 信和 号 的 整体 响 度 一 一 它 包 含 了 很 少 的 信息 。 音 调和 音色 包含 了 
不 同 种 类 的 信息 。 

音调 是 声音 的 一 个 属性 ， 用 来 描述 音乐 的 旋律 。 心 理 声学 家 基于 我 们 的 感知 来 定义 它 
[1114]。 语 音 研 究 人 员 根 据 咽喉 中 声 门 的 动作 来 定义 它 。 工 程 师 按 照 信号 的 调和 人 性 来 定义 
它 。 这 里 ， 我 们 使 用 音乐 上 的 定义 一 一 我 们 最 感 兴趣 的 是 演奏 了 什么 音 

音调 是 “声音 的 听觉 属性 ,根据 它 ， 声 音 可 以 在 一 定 尺 度 上 从 低 到 高 排序 ” 

[778]。 我 们 定义 音调 (或 者 音符 ) 是 在 复合 谐 波 上 的 最 低频 率 。 

音调 是 听觉 场景 分 析 的 一 个 重要 提示 ， 用 来 理解 信号 中 的 情绪 内 容 ， 但 是 在 语音 处 理 中 
经 常 忽略 它 。 

音色 也 是 声音 的 另 一 个 属性 ， 用 来 发 现 正在 演奏 的 乐器 的 种 类 。 

音色 是 声音 中 的 独立 维度 ， 我 们 将 它 定 义 为 除了 响 度 和 音调 之 外 的 所 有 其 他 

和 信息。 

为 了 理解 信号 中 的 情绪 和 音乐 内 容 ， 我 们 根据 组 成 声音 的 频率 来 查看 音调 。 为 了 理解 单 
词 ， 我 们 查看 音色 。 

1. 声 谱 图 

声 谱 图 (sound spectrogram) 是 声音 的 一 种 表示 方式 ， 用 来 描述 信号 的 频率 〈 频 谱 内 
A) 随时 间 的 变化 。 它 类 似 于 乐谱 ， 但 表示 了 不 能 放 在 乐谱 上 的 更 多 信息 。 

图 14-13 给 出 了 声 谱 图 的 例子 。 横 轴 表 示 以 秒 为 单位 的 时 间 ， 纵 轴 表 示 频 率 ， 在 图 像 上 
每 个 点 的 颜色 深浅 表示 信和 号 在 当前 时 刻 当 前 频率 的 能 量 。 纯 音 音乐 的 频谱 内 容 是 乐谱 信息 的 
直接 表示 。 在 图 14-13b 中 的 其 他 线 是 基础 频率 的 泛音 或 谐 波 。 这 些 另 外 的 泛音 使 得 声音 
丰富 。 图 14-13c 给 出 了 钢琴 录音 的 声 谱 图 。 每 个 音 都 伴随 着 很 多 泛音 或 谐 波 ， 丰 富 了 声音 。 
声音 的 音调 还 是 保持 一 致 的 ， 但 是 音色 改变 了 ， 因 为 钢 难 有 很 多 泛音 。 图 14-13d 是 最 真实 
的 。 这 里 演奏 了 长 第 ， 并 且 音 符 的 幅度 也 改变 了 ， 加 入 了 颤音 ， 周 期 性 地 改变 了 几 个 百分点 
的 振幅 ， 这 也 使 得 声音 更 加 真实 。 音 符 在 这 里 不 是 一 成 不 变 的 ， 但 是 你 还 是 会 听 到 无 层 义 的 
曲调 。 声 谱 图 展现 了 所 有 这 些 细 节 。 

2. 音 谱 图 

音乐 信息 检索 系统 依赖 的 声音 表示 称 为 音 谱 图 (sound chromagram) ， 即 音 度 流 [154]. 


© 感谢 Al Bregman 的 比喻 。 
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图 14-13 给 出 了 对 于 C、E 和 G 音符 的 四 个 不 同 的 〈 牵 带 ) SHA. 纯音 、 包 含 10 个 泛音 的 复合 
音符 、 钢 琴音 符 ， 以 及 用 匣 音 演奏 的 长 和 锯 。 横 轴 代 表 时 间 。 感 谢 Kyogu Lee 
音 高 描述 了 声音 的 音调 随 着 其 频率 的 增长 而 普遍 增高 。 音 度 则 完全 不 同 ， 它 是 

一 个 循环 度量 ， 对 两 个 相隔 八 度 的 音调 设置 同样 的 值 。 我 们 说 音 度 具有 八 度 周 

期 性 。 

音 谱 图 是 从 声 谱 图 中 构建 的 ， 通 过 合并 多 个 八 度 音节 到 一 个 12 维 向 量 。 如 果 基 础 八 度 
音阶 使 用 65~123Hz (C2~B3)， 那 么 信息 从 每 一 个 八 度 音阶 (频率 从 65~131Hz, 131~ 
262Hz, 262~423Hz 等 ) 合并 起 来 估计 音 谱 图 中 的 12 个 音符 。 这 就 提供 一 个 八 度 音阶 〈 即 
在 钢琴 键盘 上 的 12 个 键 ) 上 的 信息 。 在 很 小 的 波形 时 间 窗 口内 ， 这 个 计算 每 秒 完成 50 一 
100 次 。 音 谱 图 将 音乐 的 音符 (或 音 度 ) 表示 为 时 间 的 函数 。 图 14-14 给 出 了 一 个 例子 。 当 
我 们 在 歌曲 中 匹配 旋律 信息 时 ， 音 谱 图 表示 最 有 效 。 

纯音 符 泛音 钢琴 音符 
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图 14-14 对 于 图 14-13 中 所 示 的 3 个 音符 给 出 了 12 维 音 谱 图 ， 以 时 间 为 函数 。 感 谢 Kyogu Lee 
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3. Mel 频率 倒 谱 系数 

语音 信息 是 通过 声音 的 音色 表达 的 。 音 色 最 常用 的 表示 形式 是 Mel 频率 倒 谱 系数 
(Mel-Frequency Cepstral Coefficient, MFCC) [476], MFCC 将 频谱 的 主要 形状 (broad 
shape) 转换 成 为 低 维 向 量 ， 如 图 14-15 所 示 。MFCC 对 频谱 的 每 一 帧 进行 操作 ， 将 详细 的 
频谱 信息 转化 为 〈 通 常 ) 13 维 的 向 量 ， 用 来 捕获 频谱 图 的 主要 形状 。 首 先 ， 对 频谱 信道 进 
行 重新 采样 和 合并 ， 用 来 模拟 一 个 40 维 蜗 形 滤波 器 。MFCC 使 用 对 数 来 模拟 人 耳 对 响 度 的 
感知 一 一 这 是 对 响 度 的 一 种 压缩 。 其 次 ， 使 用 离散 余弦 变换 (Discrete-Cosine Transform, 
DCT) [212] 来 降低 维度 。 由 于 以 下 两 个 原因 ， 使 得 最 后 一 步 很 重要 。 首 先 ， 通 过 只 保留 
40 维 DCT 输出 中 的 13 位 ， 使 频谱 信息 得 到 了 平滑 ， 丢 掉 了 包含 在 泛音 中 的 音调 信息 ， 它 
们 在 声 谱 图 上 表示 为 一 些 细小 的 水 平 线 。 其 次 ，DCT 具有 一 个 有 用 的 属性 ， 即 输出 系数 通 
常 是 不 相关 的 。 这 就 意味 着 可 以 使 用 简单 的 概率 模型 一 一 概率 分 布 的 协 方差 基本 是 对 角 化 
的 ， 所 以 它 可 以 用 对 角 协 方差 高 斯 密度 来 建 模 ， 大 大 简化 了 任何 机 器 学 习 步 又 。 
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图 14-15 给 出 了 计算 语音 信号 “a huge tapestry hung in her hallway” 的 MFCC 所 需 的 处 理 步骤 
a) FRA; b 重新 变换 到 Mel 域 滤波 器 组 ;ec) 最 后 ， 通 过 DCT 将 维度 降低 到 13 维 


14.5 检索 和 浏览 视频 


科学 文献 中 描述 了 多 种 多 样 的 视频 可 视 化 、 导 航 、 浏 览 和 摘要 的 方法 。 这 些 方法 从 简单 
的 汇总 ， 例 如 传统 的 故事 板 和 动画 ,一 直到 能 够 翻 看 视频 集 的 创新 性 交互 式 表 示 。 在 本 节 
中 ， 我 们 首先 定义 什么 是 视频 汇总 或 者 摘要 ， 并 讨论 制作 这 种 支持 高 效 浏览 的 摘要 所 面临 的 
挑战 。 其 次 ,我 们 讨论 三 大 类 视频 摘要 ， 静止 的 (基于 帧 的 )、 动 态 的 (基于 视频 的 ) 和 交 
互 式 的 摘要。 提供 的 示例 显示 了 视频 摘要 和 浏览 技术 的 演进 。 最 后 ， 我 们 将 对 比 视频 和 音频 
浏览 。 


14. 5. 1 视频 摘要 


视频 摘要 是 一 种 视频 表示 方式 ， 能 够 简洁 而 高 效 地 表达 视频 内 容 。 对 于 一 个 不 熟悉 这 有 段 
视频 的 用 户 ， 摘 要 应 当 比 原始 视频 更 容易 理解 。 也 就 是 说 ， 视 频 摘要 是 一 种 使 视频 浓缩 表示 
或 者 可 视 化 的 技术 。 

视频 摘要 在 提供 上 下 文 和 覆盖 率 的 前 提 下 ， 应 该 简洁 且 一 致 。 当 视频 摘要 记录 了 原始 视 
频 的 所 有 关键 主题 或 者 事件 ， 我 们 说 它 履 盖 (cover) 了 视频 内 容 。 虽 然 视频 摘要 可 以 人 工 
生成 ,但 是 我 们 重点 研究 自动 生成 技术 。 

大 家 也 许 会 想到 类 似 VCR 的 方式 (例如: 快 进 和 快 退 ) 可 以 用 来 快速 查找 和 浏览 视 
频 。 但 是 ， 这 不 是 典型 的 案例 。 通 常情 况 下 ， 用 户 往 往 会 超过 或 者 未 达到 他 感 兴趣 的 场景 
[67，230，383，533，1747，1561]。 考 虑 到 这 些 类 似 VCR 方式 的 局 限 性 ， 生 成 在 上 下 文 
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中 的 摘要 对 于 高 效 的 导航 和 浏览 是 至 关 重 要 的 。 

视频 摘要 技术 通常 包含 如 下 几 个 步骤 : 1) 分 析 和 分 割 原始 视频 为 可 管理 的 单元 ;， 2) 利 
用 从 原始 视频 流 中 提取 的 视觉 、 音 频 和 文本 等 特征 的 组 合 对 这 些 单元 排序 ，3〉 选择 相关 的 
单元 /片断 来 定义 摘要 ; 4) 生成 可 视 化 摘要 。 

可 视 化 模式 可 以 分 为 两 类 : 静止 的 《〈 基 于 帧 的 ) 或 者 动态 的 〈 基 于 视频 的 )。 研 究 人 员 
使 用 视频 摘要 和 缩 略 视频 来 表示 静态 摘要 。 动 态 摘要 通过 从 原始 视频 中 生成 一 个 新 的 视频 流 
来 构造 ， 通 常 是 一 段 很 短 的 视频 。 


14.5.2 静态 摘要 


我 们 先 讨 论 静 态 显 示 视 频 摘要 方法 一 一 静态 意味 着 可 以 打印 在 纸 上 。 最 简单 的 视频 摘要 
就 是 它 的 标题 ， 即 文本 摘要 。 再 复杂 一 点 ， 可 视 化 的 摘要 是 基于 一 组 静止 的 从 原始 视频 中 和 仔 
细 挑 选 的 图 像 〈 关 键 帧 )， 有 时 还 伴随 着 其 他 一 些 信息 ， 例 如 字幕 和 时 间 惟 。 青 止 摘要 提供 
了 对 于 完全 视频 的 一 个 紧凑 的 替代 品 ， 因 为 它们 由 静态 图 像 组 成 。 它 们 代表 了 超越 类 似 
VCR 控制 〈 通 过 加 速 内 容 ) 的 第 一 步 ， 不 需要 声音 同步 ， 也 容易 自动 生成 。 

在 电影 制作 中 ， 编 剧 和 导演 用 故事 板 来 规划 要 拍摄 的 情节 ， 故 事 板 描述 了 相机 角度 ， 提 
供 了 整个 电影 的 摘要 。 在 视频 摘要 中 ， 故 事 板 对 应 于 视频 的 关键 巅 ， 由 一 维 〈 约 灯 片 ) 或 者 
EE GERO 缩 略 图 组 按照 时 间 次 序 组 成 。 早 期 的 故事 板 方法 比较 简单 ， 关 键 帧 的 选取 或 
者 是 随机 的 [1136]， 或 者 按照 时 间 顺 序 [1560]。 它 们 的 主要 缺点 就 是 不 能 提供 上 下 文 ， 即 
很 难 判断 一 个 故事 板 页 面 在 视频 时 间 线 上 的 相对 位 置 。 对 于 长 的 视频 或 者 视频 集 ， 早 期 的 故 
事 板 一 定 不 能 作为 导航 工具 ， 因 为 它们 需要 上 下 滚动 和 切换 页 面 。 

更 智能 地 抽取 关键 帧 的 方法 是 基于 镜头 或 者 场景 。 一 个 镜头 可 以 用 一 个 或 者 多 个 关键 帧 
表示 。 颜 色 、 纹 理 、 运 动 等 底层 特征 的 组 合 都 可 以 用 来 选取 关键 帧 。 尽 管 它们 有 缺点 ， 但 静 
态 故事 板 还 是 广泛 应 用 于 视频 检索 系统 和 类 似 iMovie 的 商业 产品 中 。 例 如 ， 图 14-16 给 出 
了 将 时 间 信 息 引 入 幻灯 片 的 可 视 化 表示 ， 其 中 缩 略 图 与 一 个 立方 体 结合 ， 它 的 深度 按 比例 反 
映 了 镜头 的 持续 时 间 。 





图 14-16 给 出 了 一 个 ButterBarSkim 的 例子 ， 它 的 缩 略图 与 立方 体 结合 。 
越 深 的 立方 体 代表 越 长 的 镜头 。 许 可 后 使 用 [1497] 
复杂 故事 板 
传统 故事 板 中 的 缩 略图 大 小 相同 。 二 维 故 事 板 提供 了 另外 一 种 方式 ， 其 中 缩 略图 有 不 同 
的 大 小 ， 其 出 发 点 是 相对 大 小 可 以 表示 关键 帧 的 重要 性 。 视 频 漫 画 〈Video Manga) (图 14-17) 
受到 单词 Manga 〈 即 日 文 单词 “漫画 书 ”) 的 启发 ， 代 表 了 这 类 故事 板 [1613]。 在 漫画 中 ， 
不 同 大 小 的 缩 略图 由 一 个 类 似 于 漫画 书 风格 的 、 赏 心 悦 目 的 形式 组 成 。 挑 战 在 于 需要 高 效 地 
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对 不 同 大 小 的 缩 略图 进行 排版 ， 使 得 它们 可 以 填 满 空间 ， 还 可 以 表达 视频 中 的 时 间 顺 序 。 
个 特殊 的 帧 背包 算法 可 以 用 在 这 个 方面 ， 详 细 介绍 参见 Vchihashi [1613]。 交 互 式 版 本 的 视 
频 漫画 准许 用 户 浏览 一 组 视频 。 [607] 


L 

















图 14-17 漫画 是 视频 的 画报 式 摘要 ， 根 据 日 文 单词 漫画 书 命名 ， 其 中 缩 略 图 的 大 小 
反映 了 其 关联 的 关键 帧 的 重要 程度 。 经 许可 后 改编 [1613] 


14. 5.3 图 像 拼接 与 跳跃 剧照 


对 于 包含 移动 物体 和 相机 运动 的 镜头 ， 例 如 倾斜 和 平移 、 缩 放 和 改变 焦距 ， 单 个 关键 帧 
不 能 有 效 地 表示 潜在 的 动态 内 容 。 在 此 缘 景 下 ， 研究 人 员 使 用 更 复杂 的 方式 ， 利 用 图 像 拼接 
或 跳跃 剧照 (salient stills) 合成 全 景 图 片 来 表示 一 个 镜头 。 608 
跳 牙 剧照 是 一 类 混合 图 像 ， 由 一 个 镜头 或 视频 序列 中 的 时 间 改 变 合成 。 根 据 运动 是 通过 
摄像 机 还 是 对 象 引 入 ， 跳 幅 剧照 可 分 为 三 种 类 型 [1573]: 平移 、 缩 放 和 时 间 蕉 (Time- 
print)。 图 14-18 给 出 了 平移 的 跳 牙 剧照 ， 图 14-19 给 出 了 时 间 戳 的 例子 。 





图 14-18 平移 拼接 ,按照 时 间 找 到 不 同 图 像 上 的 重 登 部 分 ， 将 它们 合成 为 一 个 新 
的 拼接 图 片 。 最 后 的 处 理 步骤 将 图 像 合成 为 一 个 无 颖 的 图 像 ， 这 里 没有 
显示 。 感 谢 Sarnoff 公司 的 Harpreet Sawhney 


446 + 第 14 章 多 媒体 信息 检索 


生成 跳跃 剧照 需要 两 个 主要 步骤 建 模 和 泻 染 。 建 模 过 程 估计 两 慎之 癌 的 一 一 致 性 程度 。 
泻 染 过 程 选择 基准 帧 和 要 泻 染 的 帧 ， 以 及 如 何 处 理 ET 
与 背景 相关 的 对 象 以 及 需要 运用 什么 种 类 的 时 间 
操作 。 

平移 的 跳跃 剧照 计算 从 帧 到 帧 的 相机 运动 ， 产 
生 单 一 的 全 景 式 静 止 图 像 组 合 这 个 镜头 中 所 有 的 帧 
[1428]。 相 机 运动 必须 计算 得 非常 精确 ， 通 常 是 离 
线 方式 来 进行 的 [1100]。 需 要 注意 的 是 ， 跳 路 剧照 
图 像 看 起 来 与 组 合 中 任何 一 个 单独 的 帧 都 不 相同 ， 
例如 会 有 更 高 的 全 局 分 辨 率 、 更 大 的 视野 ， 或 者 多 
分 辩 率 补丁 。 一 皇 跳 妈 剧 照 对 所 有 镜头 的 计算 完成 ， 
用 户 可 以 快速 地 理解 视频 内 容 。 对 于 缩放 的 跳跃 剧 
照 将 多 个 关键 帧 合并 到 一 个 多 分 辨 率 图 像 中 。 时 间 nnn 
REE—AARAARTEMKHRKER, CH E119 MERIR: 将 一 个 视频 的 多 


$ i 7 个 帧 合并 成 一 个 图 像 来 显示 运 
构造 一 个 背景 和 物体 位 置 的 动 。 授 权 后 翻印 [1573] 





14.5.4 动态 摘要 


一 般 来 说 ， 静 态 摘要 不 适合 绝 大 多 数 信息 包含 在 音 轨 中 的 视频 ， 例 如 访谈 、 电 视 电话 会 
议 、 技 术 讲 座 、 教 学 和 培训 。 动 态 摘要 纳入 时 间 和 音频 ， 同 时 提供 紧凑 性 和 非 静 态 可 视 化 表 
示 。 接 下 来 ,我 们 讨论 这 类 摘要 的 例子 ， 如 幻灯 片 、 移 动 故 事 板 和 电影 预告 片 。 

IIT (Slide Shows) 的 引入 是 为 了 解决 长 视频 的 静态 视频 摘要 的 上 弊端。 幻灯 片 以 固 
定 的 速率 显示 关键 帧 〈 按 照 时 间 顺 序 ) ， 并 且 包 含 播放 控制 和 时 间 条 “与 故事 板 相 比 的 重要 
优点 ) 。 在 快速 方式 下 ， 它 们 允许 快速 浏览 长 视频 ， 提 供 了 一 个 比 原来 的 视频 短 很 多 的 真正 
摘要 。 当 下 载 速 率 是 个 问题 的 时 候 ， 这 个 特征 使 得 幻灯 片 受到 欢迎 。 可 以 使 用 不 同 的 算法 来 
选择 组 成 幻灯 片 的 关键 帧 。 

接 下 来 更 复杂 的 是 移动 故事 板 (Moving Storyboard，MSB)， 幻 灯 片 与 原始 音 轨 的 一 个 
可 能 具有 较 低 的 声音 质量 的 版 本 同步 。MSB 可 以 与 原始 音 轨 有 相同 持续 时 间 。 它 抽取 每 个 
镜头 的 一 个 或 者 多 个 关键 帧 ， 并 且 在 镜头 整个 持续 时 间 中 进行 显示 。 对 于 长 的 镜头 最 好 抽取 
多 于 一 个 的 帜 。 与 幻灯 片 类 似 ，MSB 也 是 特别 适合 于 使 用 低位 速率 连接 的 应 用 。 

MSB 对 于 大 多 数 应 用 可 以 很 容易 地 自动 生成 ， 因 为 层 音 同步 不 是 一 个 问题 。 对 于 允许 用 
户 手动 进行 到 下 一 个 关键 帧 的 多 媒体 播放 器 ，MSB 特别 适用 ， 因 为 每 一 步 可 以 前 进 一 个 镜头 。 
在 教室 场景 中 ， 以 高 分 辩 率 显示 的 演讲 者 幻灯 片 的 静止 关键 帧 比 低 位 速率 的 视频 流 要 好 得 多 。 
因此 这 个 方法 适用 于 讲演 或 者 音频 中 包含 了 绝 大 多 数 信 息 、 且 其 中 的 运动 是 不 重要 的 视频 。 但 
是 ， 这 个 方法 不 适合 于 对 高 速 运 动 的 视频 进行 摘要 ， 例 如 网 球 比赛 、 汽 车 追逐 ， 或 者 其 他 任何 
与 运动 相关 的 视频 。MSB 的 文件 大 小 比 原始 视频 要 小 ， 但 是 持续 时 间 是 由 音频 决定 的 。 

更 高 级 的 界面 是 通过 合并 多 种 模 态 ， 如 语音 识别 、 图 像 处 理 和 自然 语言 理解 来 自动 处 理 
视频 。 电 影 内 容 分 析 (Movie Content Analysis, MoCA) 项 目 是 最 早 使 用 多 模 态 生成 电影 
MAH (Movie Trailers) 的 系统 之 一 。 电 影 预告 片 是 长 视频 的 短 版 本 ， 试 图 吸引 观看 者 的 
兴趣 。MoCA 定义 了 三 个 处 理 过 程 来 产生 视频 摘要 [1030j。 首 先 将 视频 切割 为 镜头 ， 并 识 
别 出 人 脸 、 对 话 和 字幕 上 的 文字 人 信息。 其次， 选择 最 能 代表 这 个 电影 的 片段 。 这 里 使 用 的 方 


第 14 章 多 媒体 信息 检索 ， 447 


法 是 专注 于 特殊 事件 〈 如 爆炸 ) 、 主 要 演员 、 对 话 和 字幕 文本 。 最 后 ， 将 这 些 片 段 按照 一 定 
顺序 进行 组 合 ， 并 选取 合适 的 过 渡 。 作 者 描述 他 们 结果 的 质量 与 手工 编辑 的 摘要 “相似 ”。 
然而 ， 故 事 片 似乎 不 太 合适 使 用 自动 摘要 ， 因 为 自动 方法 没有 考虑 故事 的 情感 内 容 。 610 


14.5.5 交互 式 摘要 


最 早 的 视频 浏览 界面 之 一 是 Apple 视频 放大 镜 (video magnifier) [1136]。 它 提供 了 整 
个 电影 的 层次 化 浏览 。 从 一 行 粗略 的 关键 帧 开始 ， 每 个 关键 帧 可 以 扩展 为 另外 一 行 ， 提 供 更 
详细 的 信息 。 这 个 方法 很 重要 ， 因 为 它 可 以 让 用 户 在 观看 视频 中 的 特定 信息 时 ， 还 可 以 保持 
对 整个 电影 总 体 结 构 的 认识 。 图 14-20 给 出 了 一 个 故事 板 的 例子 。 





14-20 ”一 个 包含 图 像 拼 接 和 传统 关键 帧 组 合 的 故事 板 例 子 。PanoramaExcerpts 系统 使 
用 背包 算法 来 优化 排版 。 授 权重 印 [1561] 


即使 复杂 的 故事 板 也 不 能 适用 于 视频 和 视频 集 ， 因 为 它们 不 具有 简洁 性 和 多 功能 性 。 一 
个 解决 方案 是 MovieDNA， 一 种 适用 于 视频 、 视 频 集 ， 或 者 一 般 地 ， 任 意 线性 数据 的 可 视 
化 方法 [1289], MovieDNA 要 求 将 视频 按照 直接 的 方式 (如 基于 时 间 ) 或 者 更 复杂 的 基于 
内 容 的 方式 〈 如 基于 镜头 ) 4H. MovieDNA 是 一 个 二 维 图 像 ， 在 图 像 上 很 像 是 一 个 DNA 
指纹 。 用 时 间 (在 一 个 或 多 个 不 同 视频 中 ) 将 图 像 串 起 来 。 图 像 中 的 每 个 像素 表示 特征 出 现 
在 视频 中 的 时 间 点 。 特 征 是 一 个 人 、 主 题 、 音 频 类 型 或 其 他 元 数据 。 用 户 可 以 很 快 地 看 到 视 
频 中 有 什么 、 什 么 时 间 出 现 ， 并 且 可 以 很 快 地 跳 到 视频 中 合适 的 片段 。 将 多 个 MovieDNA 
组 合 就 变 成 了 分 层 MovieDNA (Hierarchical MovieDNA，HMDNA)。HMDNA 提供 了 一 
个 视频 集 的 高 层 概述 。 它 是 一 个 导航 和 可 视 化 视频 内 容 多 层 语义 的 有 效 工具 ， 同 时 可 以 在 视 
频 集 内 保持 位 置 和 上 下 文 。 611 

图 14-21 给 出 了 一 个 3 小 时 视频 集 的 两 层 MovieDNA 的 例子 。 在 左边 的 第 一 层 聚 合 了 三 
个 MovieDNA ， 每 个 1 小 时 。 第 二 层 在 中 间 ， 表 示 了 一 个 60 分 钟 视 频 的 MovieDNA ， 每 分 
钟 1 行 ， 每 一 列表 示 一 个 特征 。 这 个 例子 给 出 了 视频 集中 第 二 个 小 时 的 数据 ， 其 中 每 一 列 中 
的 特征 表示 从 语音 转录 中 自动 提取 的 n-grams。 当 用 户 在 矩阵 中 移动 光标 ( 称 为 “ 刷 ”) 的 


613 


448 。 第 14 章 多 媒体 信息 检索 


时 候 ， 与 这 个 部 分 相 联 的 包含 元 数据 的 窗口 会 显示 在 右边 ， 以 显示 第 二 小 时 视频 的 细节 。 
MovieDNA 中 第 三 个 片段 显示 了 一 个 作为 代表 的 缩 略 图 和 与 这 个 片段 相关 联 的 语音 转录 。 
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14-21 对 一 个 3 小 时 视频 集 的 两 层 MovieDNA 例子 。 来 源 于 Hierarchical brushing in a col- 
lection of video data, Proceedings of Hawaii International Conference on Systems 


Science (HICSS) (Ponceleén, D. B., and Dieberger, A.), 2001, © IEEE[1289 | 


14.5.6 视觉 与 听觉 浏览 对 比 


相 比 于 浏览 语音 或 声音 内 容 ， 人 们 可 以 更 迅速 地 浏览 视觉 信息 。 图 像 查询 的 结果 可 以 在 
几 秒 钟 内 理解 。 类 似 地 ， 一 个 中 等 大 小 的 组 里 的 图 像 内 容 可 以 很 快 理解 。 也 可 以 通过 并 排 方 
式 比较 相应 的 摘要 来 比较 两 个 图 像 集 [1496]。 对 于 特定 类 型 的 视频 ， 我 们 可 以 利用 快 进 方 
式 来 理解 它们 的 视觉 内 容 。 

相反 地 ， 我 们 并 不 能 迅速 地 浏览 语音 和 声音 。 由 于 声音 信号 的 时 间 属 性 ， 定 义 与 缩 略 图 
单元 相同 的 声音 单元 也 是 一 个 挑战 。 对 于 一 般 人 ， 我 们 只 能 一 次 听 一 个 音频 流 。 从 1997 年 
开始 出 现 了 能 够 提取 语音 片段 的 技术 [1435]， 如 去 除 静 默 、 音 乐 以 及 其 他 非 语音 声音 。 

有 两 种 加 速 音频 的 方法 : 时 间 尺 度 更 改 CTime-Scale Modification, TSM) 和 语音 摘要 
(speech summarization), TSM 算法 产生 压缩 的 声音 信和 号， 使 得 信号 变 短 同时 保持 信号 的 音 
调 、 音 色 和 话音 质量 。 语 音 可 以 加 速 到 2. 5 倍 ， 普 通用 户 仍 然 可 以 理解 。 进 一 步 的 提高 可 以 
通过 修改 较 长 的 声音 信号 (如 单词 中 的 元 音 和 语音 中 相对 较 轻 的 部 分 ) 来 更 快速 地 回放 但 仍 
保留 原始 声音 信号 中 较 短 的 部 分 (如 辅音 )。 通 过 这 种 方法 ,语音 可 以 加 速 到 4 倍 ， 同 时 仍 
保证 用 户 可 以 理解 它 的 内 容 [434]。 当 这 些 方法 无 效 时 ， 另 外 一 种 方法 是 分 析 单 词 ， 仪 从 中 
选取 一 些 短语 和 句子 进行 回放 。 可 以 通过 语音 识别 算法 来 提取 文本 和 节奏 ， 文 本 摘要 算法 用 
来 选择 最 重要 的 短语 ， 之 后 简单 的 音频 编辑 用 来 回放 选择 的 语音 [1109]. 


14.5.7 ”摘要 评价 


关于 评价 ， 并 没有 统一 定义 的 评价 指标 来 确定 一 个 摘要 的 质量 。 在 绝 大 多 数 情况 下 ， 评 
价 是 主观 的 ， 例 如 通过 用 户 研究 (user study) 来 决定 用 户 是 否 可 以 成 功 地 使 用 摘要 而 不 是 
原始 视频 完成 特定 的 任务 。 关 键 是 搞 要 质量 的 评价 依赖 于 向 用 户 提出 的 问题 L1564]。 

自动 生成 的 摘要 很 难 证 明 是 准确 的 ， 尤 其 是 对 于 好 莱 坞 影片 。 具 有 数 百 万 预算 的 电影 制 
作 ， 可 以 很 容易 花费 几 万 美金 让 人 工 编辑 来 制作 预告 片 ， 可 以 从 测试 听众 哪里 得 到 最 好 的 反 
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映 。 因 此 视频 摘要 可 能 最 适合 应 用 于 体育 赛事 (对 于 不 同 的 体育 迷 生 成 摘要 ) 和 家 庭 录 像 
《只 有 很 少 的 预算 ) 。 已 经 开发 了 一 些 特定 的 算法 ， 尤 其 是 对 于 体育 视频 ， 可 以 利用 领域 特有 
的 属性 。 这 些 摘要 使 用 欢呼 声 来 检测 特殊 事件 和 得 分 ， 用 OCR 来 检测 比分 ， 并 提供 著名 运 
动员 的 信息 ， 以 及 内 置 的 关于 角度 、 缩 放 和 平移 的 知识 。 


14.6 融合 模型 : 合并 所 有 信息 

多 媒体 融合 指 的 是 合并 不 同类 型 的 数据 ， 用 于 对 多 媒体 检索 任务 做 出 更 好 的 决策 。 这 与 
文本 检索 不 同 ， 因 为 它 经 常 需 要 从 相同 的 多 媒体 信号 中 挖掘 出 不 同 种 类 的 信息 。 

我 们 讨论 两 种 不 同 种 类 的 融合 : 基于 另 一 个 领域 的 信息 识别 本 领域 和 同时 使 用 两 个 领域 
来 发 据 感 兴趣 的 信息 。 在 第 一 种 形式 中 ， 通 过 构建 一 个 联合 概率 模型 融合 多 媒体 信号 和 文本 
模型 来 解决 多 媒体 检索 问题 。 这 种 类 型 的 模型 可 以 用 声音 来 标注 人 脸 、 图 像 和 声音 。 在 第 二 
种 融合 模型 中 ， 使 用 不 同 模 态 多 媒体 信号 提供 的 不 同 种 类 信息 ， 以 便 更 好 地 了 解 这 些 信号 。 
这 种 类 型 融合 的 最 好 例子 是 音 -视频 语音 识别 ， 通 过 视频 上 的 导读 来 提高 语音 识别 准确 率 。 

我 们 在 多 模 态 融合 解决 方案 方面 讨论 四 个 重要 问题 : 人 脸 命名 、 图 像 命名 、 音 频 命名 和 
音 - 视 频 (Audio-Video，AV) 语音 识别 。 


14. 6. 1 人 脸 命 名 


Web 特别 是 新 闻 页 面 中 包含 了 图 片 和 它们 的 说 明文 字 。 这 方面 的 内 在 问题 是 从 说 明文 
字 中 提取 图 片 中 人 脸 的 名 字 。Berg 和 她 的 同事 用 三 个 阶段 来 解决 这 个 问题 L186]。 他 们 首 
先 使 用 基于 主 成 分 分 析 CPrincipleComponents Analysis, PCA) 的 标准 技术 来 发 现 图 像 中 
的 人 脸 。 其 次， 他 们 使 用 简单 的 命名 实体 识别 器 来 查找 图 像 说 明 中 合适 的 人 名 。 些 时， 他 们 
有 很 多 面部 图 像 可 以 用 任何 出 现在 说 明文 字 的 名 字 命 和 名。 最 后 ， 他 们 将 标记 了 名 字 的 所 有 面 
部 图 像 聚 类 ， 来 查找 一 组 一 致 的 图 像 PCA 向 量 ， 能 够 聚合 且 在 所 有 说 明文 字 中 最 好 地 描述 
每 个 名 字 。 我 们 先 描述 如 何 找到 人 脸 。 

人 脸 包 含 很 多 种 类 和 姿势 。 然 而 ， 在 大 量 的 图 像 中 ， 它 们 还 是 有 共同 的 特征 。Eigen- 
Face (特征 脸 ) 是 识别 人 脸 中 公共 特征 的 重要 工具 ， 它 是 通过 使 用 主 成 分 分 析 (PCA) 查找 
最 优 子 空间 得 到 的 [1608] (参看 图 14-22) 。 在 特征 脸 中 ， 所 有 的 〈 训 练 ) 人 脸 图 像 都 进行 
了 对 准 ， 所 以 眼睛 和 其 他 脸 部 特征 都 始终 在 标准 大 小 图 像 (N x M 像素 ) 的 同一 位 置 。 其 
次 ， 从 图 像 中 读 出 亮度 信息 ， 通 常 按照 字典 序 ， 组 成 一 个 大 小 是 N X M 的 向 量 。 每 个 人 脸 
图 像 构成 了 非常 高 维 的 空间 中 的 一 个 点 。 我 们 的 任务 就 是 将 空间 中 对 应 人 脸 的 部 分 从 其 他 部 
分 中 区 分 出 来 。 

命名 实体 识别 器 从 每 个 图 像 关 联 的 说 明文 字 中 抽取 出 常见 的 人 名 。 通 常 ， 有 些 专 有 名 词 
不 会 与 人 脸 关联 ， 如 组 织 名 ， 此 外 ， 还 有 一 些 图 像 中 出 现 的 人 脸 没 有 在 说 明文 字 中 列 出 。 最 
后 的 任务 就 是 将 图 像 和 合适 的 人 名 进行 对 应 。 

对 应 问题 通过 聚 类 和 期 望 最 大 化 方法 的 组 合 解决 。 此 时 ， 我 们 有 一 批 数据 可 以 表示 
“George Bush”， 因 为 它们 都 出 现在 包含 “George Bush” 说 明文 字 的 图 像 中 ， 但 是 它们 可 能 
是 其 他 人 。Berg 构建 了 一 个 概率 模型 来 分 割 特征 脸 空 间 。 期 望 最 大 化 〈 正 xpection-Maximi- 
zation, EM) 算法 用 来 分 配 。 首 先 ， 她 估计 出 将 特征 脸 空 间 与 可 能 的 名 字 联 系 起 来 的 概率 
模型 。 其 次 ， 使 用 最 大 似 然 估计 或 平均 估计 ， 每 个 人 脸 图 像 分 配 了 一 个 人 名 (或 没有 )。 这 
个 算法 一 直 重 复 ， 直 到 名 字 - 图 像 对 收敛 。Berg 在 超过 1000 张 图 像 的 识别 任务 上 ， 得 到 约 
78% 的 准确 率 。 
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图 14-22 特征 脸 表 示 。 左 边 的 9 个 图 像 显 示 了 通过 分 析 10 667 个 64X 64 的 注册 人 像 图 片 ， 找 


到 的 前 9 个 特征 向 量 。 右 边 的 图 片 表示 这 些 特征 向 量 如 何 加 起 来 逼近 原始 图 像 ， 原 始 
图 像 显示 在 右 下 角 


14.6.2 图 像 命名 


一 个 融合 图 像 和 单词 的 一 般 方法 是 使 用 广义 语言 模型 ， 在 其 中 所 有 单词 都 用 来 描述 图 像 
的 一 部 分 。Barnard 提出 将 这 个 问题 用 机 器 翻译 任务 来 解决 [148]。 就 像 是 从 一 种 语言 翻译 
为 另外 一 种 语言 ， 他 提出 将 图 像 特征 与 单词 关联 起 来 。 通 过 使 用 层次 图 像 聚 类 和 接 下 来 用 一 

615] 组 词 来 标记 每 个 类 来 实现 它 。 

分 析 图 像 的 第 一 个 任务 是 发 现 图 像 中 对 应 于 不 同 对 象 的 不 同 部 分 一 一 希望 能 够 从 天 空 背 
景 中 将 老虎 分 割 出 来 。 一 个 方法 是 使 用 归 一 化 割 [1463]。 在 归 一 化 割 中 ， 构 建 了 每 个 像素 
到 每 个 像素 的 图 。 边 的 权重 是 两 个 像素 间 的 相似 程度 的 函数 。 对 于 更 一 般 的 情况 ， 需 要 计算 
一 个 描述 图 像 中 较 大 区 域 的 特征 ， 以 及 两 个 像素 在 原始 图 像 中 的 空间 分 离 程 度 。 想 法 是 将 结 
A RA) 分 组 ， 通 过 在 图 上 选择 好 的 分 割 ， 每 个 分 割 将 完全 不 同 的 点 区 分 开 (因为 它们 的 
边 的 值 高 )。 这 个 问题 可 以 公式 化 为 奇异 值 分 解 (Singular-Value Decomposition, SVD) 问 
题 。 图 14-23 给 出 了 一 个 样 例 结果 。 





ny 边缘 检测 器 检测 的 边缘 ， 以 及 利用 归 一 化 割 找到 的 5 个 对 象 。 感 谢 Jianbo 
Shih 提供 软件 
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图 像 中 的 每 个 对 象 根据 归 一 化 割 建 模 为 独立 的 区 域 。 使 用 的 特征 向 量 包 括 大 小 、 位 置 、 
颜色 、 方 向 能 量 和 一 些 简单 的 形状 特征 。 然 后 ， 使 用 这 个 特征 向 量 将 对 象 层次 化 分 组 ， 生 成 
一 个 融合 两 种 数据 源 的 联合 单词 -图 像 概 率 模型 。 给 定 一 个 图 像 ， 我 们 可 以 查询 单词 -图 像 概 
率 模型 ， 佑 计 单 词 最 可 能 与 哪个 图 像 关 联 到 一 起 。 或 者 反 过 来 说 ， 我 们 要 找到 最 能 与 单词 对 
应 的 图 像 特征 。 


14. 6.3 音频 命名 


Slaney 研究 了 类 似 的 方式 ， 但 其 目标 是 关联 音频 和 单词 [1489]j。 这 个 问题 在 某 种 程度 
上 比较 简单 ， 因 为 每 个 声音 文件 都 假定 只 含有 一 个 声音 ， 因 此 不 需要 进行 分 割 。 但 是 ， 它 也 
更 复杂 ， 因 为 声音 表示 是 复杂 的 ， 声 音 可 能 长 达 数 分 钟 且 不 断 变换 ， 而 且 它 们 的 描述 是 句子 
的 片段 而 不 是 关键 词 。 在 他 们 的 系统 中 ， 两 种 不 同 的 声效 库 中 的 声音 通过 文字 描述 信息 链接 
ER AA, B: 一 匹 马 在 坑坑洼洼 的 小 路 上 走 近 ) 。 

423 [A] (anchor space) 将 声音 表示 为 点 或 者 锚 (anchor)， 对 应 于 一 个 集成 声音 模型 的 距 
离 。 查 询 声 音 到 每 一 个 锚 模 型 的 距离 组 成 一 个 向 量 。 用 GMM 计算 这 些 距 离 ， 就 像 是 说 话 人 识 
别 中 的 说 话 人 模型 (参见 14. 4. 3 节 )。 

通过 在 两 棵 树 上 的 结 点 间 构 建 显 式 连 A ™ Prob (cluster|query ) 
接 ， 将 单词 和 声音 关联 起 来 。 在 声音 层次 Prob (audiolquery > Prob ( audio|cluster ) 
BATS“ “9 Da le A E E A tale = P (ale) p (e) p (gic) /p (9) 
关 的 单词 的 多 项 模型 关联 。 在 语义 空间 中 < Ignore 
的 一 个 结 点 连接 到 GMM 模型 所 刻画 的 听 。。 高 斯 混合 模型 。 多 项 式 模 型 
觉 空间 的 一 部 分 (用 锚 模 型 距离 向 量 表 a my. N 
示 )。 图 14-24 给 出 了 这 些 链接 的 数学 n RAT AR MMI} REL 
模型 。 叶 斯 规则 (Bayes Rule) 得 到 

给 定 一 个 新 的 声音 ， 我 们 查找 它 与 每 个 锚 模 型 的 距离 ， 找 到 在 层次 式 音 频 模型 中 最 符合 
的 结 点 ， 然 后 从 相关 的 多 项 模型 中 读 出 最 可 能 的 单词 。 或 者 给 定 一 组 单词 ， 它 构成 了 语义 空 
间 中 的 一 个 点 ， 我 们 可 以 找到 最 相关 的 语义 艇 。 然 后 ， 给 定 在 锚 空 间 中 每 个 单词 的 位 置 ， 可 
以 测试 给 定 的 声音 和 期 望 的 音频 空间 部 分 的 相似 程度 。 


p calg) =F p (ale) p Cclg) 


14.6.4 结合 音频 与 视频 的 音 -视频 语音 识别 

音 -视频 语音 识别 (Audio-Visual Speech Recognition, AVSR) 结合 了 与 传统 语音 识别 
器 类 似 的 听 党 信息 和 说 话 人 的 人 脸 视 频 信 息 ， 生 成 更 准确 的 语音 识别 结果 [1298]。 这 是 受 
到 期 待 的 ， 因 为 很 多 的 声音 ， 即 使 在 很 好 的 声学 条 件 下 ， 利 用 视觉 信息 也 更 容易 辨认 。 在 噪 
声 环境 下 ， 听 觉 特 征 会 产生 误导 ， 而 视觉 信息 则 完全 不 受 影响 ， 从 而 对 语音 识别 提供 了 很 强 
的 语音 线索 ， 虽 然 此 时 的 听 党 场景 几乎 是 没有 用 的 。 

我 们 用 基于 像素 的 ， 或 者 基于 形状 的 特征 来 表示 视觉 证 据 。 在 基于 像素 的 特征 中 ， 图 像 
的 像素 通常 经 过 特征 脸 (参见 14. 6. 1 节 ) 等 变化 来 构成 特征 向 量 。 基 于 形状 的 特征 表示 知 
识 的 更 高 阶 形式 ， 其 基础 是 查找 面部 特征 的 位 置 ， 例 如 嘴唇 位 置 和 下 颌 轮廓 。 两 种 形式 的 特 
征 ， 或 者 它们 的 组 合 都 可 以 用 来 作为 AVSR 系统 的 输入 。 

图 14-25 给 出 了 两 种 解决 AVSR 问题 的 方法 。 在 第 一 种 情况 中 ， 称 为 早期 融合 (early 
fusion) WEBS (feature combination) ， 音 频 和 视觉 特征 经 过 一 定 的 归 一 化 和 重 采 样 ， 
合并 为 一 个 特征 向 量 用 于 识别 。 在 第 二 种 情况 中 ， 称 为 后 期 融合 Uate fusion) 或 决策 组 合 
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(decision combination) ， 对 两 个 特征 流 分 别 进行 解释 和 分 析 ， 每 个 流 提供 一 个 关于 单词 出 现 
的 决策 ， 之 后 合并 形成 最 终 估 计 。AVSR 使 用 的 音频 特征 与 传统 ASR 使 用 的 相同 ， 参 见 
14. 4.2 节 中 的 描述 。 





音 视频 





人 
Bl _, 


早期 融合 





A i- 


14-25 ”两 种 不 同 的 音 视 频 语 音 识别 方法 。 顶 部 所 示 的 是 早期 融合 ， 音 
频 和 视频 信息 较 早 地 融合 为 一 个 联合 向 量 。 底 部 所 示 的 是 后 期 
融合 ， 每 个 模 态 单独 做 出 决定 (分 别 使 用 隐 马 尔 可 夫 模 型 )， 
接 下 来 进行 融合 
在 最 简单 的 形式 中 ， 听 觉 和 视觉 特征 简单 地 连接 ， 作 为 传统 识别 器 的 输入 。 一 般 来 说 ， 
有 很 多 特征 操作 阶段 来 选择 最 佳 的 维度 C517] 和 旋转 特征 ， 以 便 让 每 个 维度 都 是 独立 的 
L82]。 连 接听 觉 和 视觉 特征 称 为 早期 融合 ， 因 为 信息 是 在 听觉 降 视 觉 做 出 决策 之 前 的 早期 阶 
段 合 并 的 。 | 
HMM 模型 (参见 14. 4. 2 节 ) 描述 了 
由 相对 静止 的 状态 序列 组 成 的 信和 号， 每 个 
状态 产生 一 个 特有 输出 特征 集合 。 在 听觉 
领域 中 ， 这 些 状 态 表 示 音 素 ， 对 于 英语 传 
统 语音 识别 可 能 会 采用 多 种 音素 。 视 觉 对 
应 的 是 视 位 (viseme) ， 一 个 特有 的 、 用 来 
表示 嘴 层 位 置 的 视觉 模式 ， 大 约 有 13 种 不 
同 的 视 位 描述 出 现在 英语 语音 的 不 同 视觉 
模式 中 。 
在 后 期 融合 中 ， 我 们 使 用 独立 的 识别 器 


来 对 听觉 和 视觉 信息 做 出 决策 ， 一 个 决策 从 图 14-26 音频 和 音 - 视 频 语 音 识 别 的 典型 结果 ， 显 示 了 
在 使 用 视觉 信息 的 情况 下 ， 容 错 度 达到 了 











人 ATA RE E lodB & f= MR 比 (Signal-to-Noise Raion, 
识别 视 位 。 然后 ， 融合 两 个 决策 来 决定 哪个 SNR), 来 源 : Automatic recognition of audio- 
单词 出 现 。 visual speech: recent progressand challenges, 

图 14-26 给 出 了 在 一 段 范围 的 音频 、 视 Proceedings of the IEEE (Potamianos, G. , 


Neti, C , Gravier, G., Garg, A. and Senior, 
频 和 了 噪声 条 件 〈 用 信 噪 比 衡量 [1298]) 下 A.W.), 2003, © IEEE[1298] 
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的 典型 结果 。 当 只 使 用 视觉 信息 的 时 候 ， 单 词 错误 率 (Word-Error Rate, WER) 相对 高 且 
不 因 噪 声 水 平 而 变化 。 当 没有 噪声 时 ， 仅 使 用 音频 的 结果 是 好 的 ， 但 加 入 噪声 后 迅速 下 降 。 
最 后 ，AVSR 结果 是 最 好 的 ， 特 别 是 在 高 噪声 的 情况 下 。 听 党 信息 和 AVSR 结果 之 间 的 差 
别 ， 是 加 入 视觉 信号 后 的 噪声 容错 度 。 在 这 个 例子 里 ， 它 是 10dB。 

有 趣 的 是 ，AVSR 使 用 后 期 融合 比 前 期 融合 的 结果 好 。 似 乎 更 符合 逻辑 的 是 ， 前 期 融 
合 方法 应 该 比 后 期 融合 要 好 ， 因 为 它 拥有 所 有 需要 的 、 用 于 理解 两 个 数据 间 关 联 关系 和 其 他 
特点 的 信息 。 但 是 ， 实 际 上 ， 在 AVSR 系统 中 早期 融合 不 如 后 期 融合 的 效果 好 。 一 种 假设 
是 ， 在 进行 早期 融合 时 ， 联 合 概率 模型 太 复杂 ， 难 以 用 单一 识别 器 学 习 。 这 可 能 是 因为 模型 
不 能 捕获 联合 分 布 的 细微 差别 ， 或 者 因为 没有 足够 的 数据 。 在 两 种 情况 下 ， 后 期 融合 ， 或 者 
结合 早期 融合 和 后 期 融合 的 混合 方式 可 以 得 到 更 好 的 结果 。 


14. 6.5 结合 音频 和 视频 的 多 媒体 处 理 


最 后 ， 更 一 般 的 音 视频 识别 问题 也 可 用 上 面 介 绍 的 AVSR 技术 来 解决 。 

例如 ，IBM 的 研究 人 员 [1171] 提出 了 一 种 多 媒体 系统 用 来 标注 视频 不 同 部 分 的 高 层 
语义 ， 例 如 “包含 某 人 的 视频 片段 >、 室外 场景 、 火 、 城 市 景观 和 飞机 。 他 们 测试 了 系统 标 
注 人 物 的 精度 ， 例 如 “Madeleine Albright”。 最 好 的 、 仅 使 用 音频 的 模型 的 精度 可 以 达到 
30%， 而 仅 使 用 视觉 信息 的 模型 (人 脸 识 别 ) 的 精度 是 29% 。 非 常 吸引 人 的 是 ， 最 好 的 、 
基于 后 期 融合 的 综合 系统 的 精度 达到 了 47% 。 这 个 数字 表明 听 党 -视觉 联合 模型 具有 优势 ， 
也 说 明了 仍 需要 做 很 多 工作 来 提高 整体 精度 。 


14.7 “分割 


在 实际 处 理 用 户 多 媒体 查询 之 前 ， 需 要 将 多 媒体 对 象 分 割 成 小 的 对 象 。 这 称 为 分 钊 
Csegmentation) 。 我 们 讨论 的 分 割 问题 的 解决 方法 都 是 基于 图 像 、 音 频 和 视频 对 象 的 基本 特 
征 ， 如 颜色 、 纹 理 和 光照 强度 。 

当 在 信息 检索 系统 中 “加 入 ”一 个 视频 的 时 候 ， 其 中 第 一 步 是 将 视频 分 割 为 可 管理 的 
语义 单元 ， 即 镜头 ， 因 为 视频 很 大 (通常 ， 用 MPEG-2 压缩 的 1 小 时 视频 需要 占用 
2GB) 。 一 个 镜头 对 应 于 摄像 机 采集 的 一 连 串 没 有 中 断 的 帧 序列 。 例 如 ， 采 访 类 的 视频 会 
包含 多 种 镜头 ,摄像 机 会 在 采访 者 和 被 采访 者 之 间 切 换 。 视 频 由 一 些 场景 组 成 ， 一 个 场 
景 定义 为 一 连 串 相 邻 的 、 语 义 一 致 的 镜头 。 相 关 的 场景 又 合并 成 更 高 层 的 语义 单元 ， 在 文 
献 中 有 不 同 的 名 字 ， 例 如 片段 和 故事 [414]。 在 电影 或 者 视频 中 的 单元 层次 结构 如 图 14-27 
所 示 L798]. 

视频 从 一 个 镜头 到 下 一 个 镜头 间 的 变化 有 一 个 过 渡 (transition), HN, RA Cu) 是 
一 个 突然 的 过 滤 ， 因 为 整个 图 片 瞬 间 变 化 ， 所 以 通常 是 一 个 容易 检测 的 过 渡 。 其 他 过 渡 ， 例 
MIRA (fade), FH (dissolve) 和 擦 除 则 缓慢 发 生 。 信 号 中 的 曲 声 、 相 机 闪光 、 特 别 的 过 
渡 效 果 ， 甚 至 是 快速 移动 的 物体 都 会 使 镜头 边界 检测 具有 挑战 。 这 里 考虑 三 种 常见 类 型 的 场 
ROR: 突变 、 淡 入 和 溶解 。 

分 割 算 法 有 多 种 类 型 ， 例 如 基于 像素 、 差 异性 统计 、 基 于 颜色 直方 图 、 基 于 边缘 、 基 于 
DCT 和 基于 运动 。 这 里 讨论 它们 中 的 几 种 。 我 们 还 会 讨论 基于 说 话 人 识别 的 音频 分 割 。 然 
而 ， 在 我 们 继续 阐述 之 前 ,我 们 先 给 出 一 个 例子 。 
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完整 视频 片段 

















图 14-27 ”电影 或 视频 中 对 象 层级 结构 。 根 据 J Hunter 的 图 片 改造 ，2001 年 


14.7. 1 视频 分 割 样 例 


图 像 的 简单 测度 ， 例 如 两 帧 像素 对 之 间 的 不 同 ， 不 能 对 视频 分 割 提 供 很 好 的 信息 。 例 
如 ， 当 视频 中 出 现 常见 的 变化 时 ， 例 如 改变 摄像 机 的 拍摄 角度 ， 所 有 的 像素 都 会 改变 ， 这 样 
就 会 造成 大 的 像素 间 误 差 。 一 种 不 同 的 方法 是 镜头 边界 检测 ， 即 通过 在 整个 图 像 中 查找 统计 
信息 摘要 来 发 现在 视频 中 哪些 时 刻 发 生 了 大 的 变化 。 基 于 统计 差异 性 的 早期 方法 将 图 像 切 分 
为 不 同 的 区 域 ， 随 后 比较 这 些 区 域 的 不 同 ， 例 如 两 个 区 域 间 灰 度 级 的 均值 和 标准 差 。 然 而 ， 
这 些 方法 会 产生 很 多 误 报 (alse positive), 

一 个 简单 的 全 局 统计 值 是 图 像 的 颜色 直方 图 。 直 方 图 是 通过 图 像 中 每 种 颜色 的 像素 数 计 
算得 到 的 。 因 为 颜色 通常 用 3 个 8 位 的 数字 表示 ， 所 以 颜色 数 太 多 了 ， 很 难 直接 用 来 计数 。 
相反 ， 我 们 将 每 维 颜 色 大 致 量化 到 8 个 等 级 。 这 样 一 共有 512 种 不 间 的 颜色 类 型 (8X8X8 
种 颜色 )。 直 方 图 是 镜头 分 割 中 最 常用 的 方法 。 

图 14-28 给 出 了 颜色 直方 图 方法 的 例子 [1493]。 这 里 ， 对 于 每 一 帧 计算 一 个 512 个 区 
间 的 颜色 直方 图 。 这 样 就 会 产生 一 个 随时 间 推 移 的 512 维 信 号 ， 每 秒 采样 30 次 。 奇 异 值 分 
解 (Singular-Value Decomposition, SVD) 算法 用 来 找到 最 佳 的 低 秩 近似 信号 。 最 重要 的 颜 
EAS E SVD 结果 中 包含 最 大 能 量 的 4 维 ) 作为 时 间 的 函数 给 出 。 这 提供 了 视频 中 的 全 
局 变化 的 简单 度量 。 如 图 14-28 所 示 ， 我 们 注意 到 在 镜头 内 部 的 信号 变化 比较 小 ， 例 如 帧 中 
物体 的 运动 (在 345 秒 处 )。 但 是 镜头 切换 可 以 清楚 地 从 颜色 信号 的 巨大 改变 中 看 到 ， 例 如 
在 338 秒 处 。 在 357 秒 附近 ， 两 个 相关 的 图 像 玲 加 用 来 提供 视频 片段 间 的 平滑 过 渡 ， 称 为 溶 
解 (dissolve)。 
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图 14-28 给 出 了 一 段 35 秒 长 的 《21st Century Jet》 视 频 片 段 的 颜色 信息 摘要 。 信 号 中 的 急剧 过 滤 对 应 镜头 
边界 ， 但 是 大 而 慢 的 过 渡 表 示 的 是 溶解 。 在 第 357 秒 处 ， 两 种 不 同 飞机 的 图 像 在 溶解 中 释 加 在 一 
起 。 经 授权 使 用 [1493] 
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14. 7.2 视频 分 割 方案 


颜色 直方 图 方法 可 以 得 到 好 的 结果 ， 因 为 视频 变化 是 由 于 镜头 或 物体 移动 ， 或 者 灯光 改 
变 ， 引 起 颜色 直方 图 缓慢 变化 一 一 相 比 之 下 ， 大 多 数 的 图 像 不 发 生变 化 ， 只 是 重 排 整理 。 检 
测 淡 人 更 加 困难 ， 因 为 它 表 示 了 视频 随时 间 的 变化 一 一 开始 时 是 正常 的 图 像 ， 视 频 线 性 地 训 
减 为 黑色 ， 然 后 变 到 一 个 新 的 图 像 。 一 种 简单 的 淡 人 检测 器 查找 具有 相同 颜色 的 帧 。 亮 度 在 
变 淡 之 前 和 之 后 符合 线性 曲线 ， 可 以 通过 计算 帧 平均 亮度 的 一 阶 导 数 来 检测 。 

溶解 是 最 难 检测 的 分 割 边界 。 在 溶解 中 ， 图 像 通过 交叉 缓慢 地 溶解 像素 ， 从 一 个 场景 变 
化 到 另外 一 个 ， 例 如 以 像素 到 像素 为 基础 在 连续 80 一 一 一 一 一 一 一 一 一 一 
图 像 上 执行 线性 插值 。 一 种 检测 这 种 变化 的 方法 70 + RA - 
是 测量 每 帧 图 像 的 整体 亮度 方差 。 通常 情况 下 ， 60 + 
这 一 测度 会 相当 高 ， 因 为 之 前 和 之 后 的 图 像 包 含 
我 们 可 以 看 到 的 光照 变化 。 但 是 在 溶解 过 程 中 ， 
两 个 图 像 会 混合 ， 而 组 合 必然 会 降低 整体 的 方差 。 
因此 ， 我 们 可 以 查找 亮度 均 方差 长 达 几 秒 钟 的 急 adi 











亮度 标准 差 
T 














降 来 检测 溶解 ， 如 图 14-29 所 示 [1029]. 10 上 

一 种 更 鲁 棒 的 查找 溶解 的 方法 是 如 Covell 所 0100 150200250300 350 400 
做 的 构建 显 式 模型 [433]。 在 她 的 综合 分 析 方 法 帧 号 
中 ， 她 指出 给 定 任意 两 个 在 溶解 中 间 的 点 ， 都 是 ”图 14-29 给 出 了 三 个 淡 入 的 图 像 在 亮度 
端点 的 线性 捅 值 。 这 给 了 我 们 一 个 直接 的 手段 来 标准 差 上 的 变化 。 经 授权 重印 
检测 溶解 。 例 如 ， 我 们 可 以 在 视频 中 以 1 秒 钟 为 [1028] 


时 间 间 隔 采 样 帧 对 ， 并 且 查 看 中 间 的 帧 是 否 可 以 通过 端点 线性 插值 来 预测 。 预 测 误差 为 我 们 
提供 了 这 一 点 是 溶解 的 可 能 性 的 估计 。 我 们 可 以 扩展 低 预测 错误 的 区 域 来 找到 溶解 的 开始 和 
结束 。 


14.7.3 利用 边缘 的 视频 分 割 


更 鲁 棒 的 场景 分 割 的 测度 是 基于 边缘 的 统计 信息 。 边 缘 是 图 像 中 亮度 急剧 不 连续 的 部 
分 。 它 们 对 光照 变化 和 镜头 移动 不 敏感 ， 因 而 受到 关注 。 边 缘 的 出 现 和 消失 告诉 我 们 很 多 关 
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于 视频 中 正在 发 生 什么 的 信息 。 


Zabih 描述 了 结合 运动 估计 和 边缘 检测 ， 从 而 计算 边缘 变化 率 的 系统 [1762]。 基 本 的 
思路 是 寻找 不 在 序列 的 下 一 幅 图像 中 出 现 的 边缘 (反之 亦 然 );。 这 是 有 挑战 性 的 ， 因 为 镜头 
运动 会 造成 一 帧 中 的 边缘 会 出 现在 下 一 帧 中 的 不 同位 置 。 因 此 ， 我 们 首先 匹配 两 幅 图 像 来 消 
除 全 局 运动 。 全 局 图 像 匹 配 是 通过 查找 位 移 Az、Ay， 来 最 大 化 当前 帧 〈 五 ) 和 下 一 帧 (1;) 
的 像素 相关 性 CRI RH : 

X) Cr lx + Az, y+ Ay], TLzr,y]) (14-10) 


其 中 二 和 2y 是 像素 坐标 。 给 定 将 两 帧 对 齐 需 要 的 位 移 ， 我 们 现在 有 两 张 粗略 对 齐 的 图 像 ， 
可 以 用 来 发 现 和 匹配 边缘 。 

Canny 边缘 检测 算 子 [327] 找到 图 像 中 重要 (对 本 算法 的 目的 ) 的 点 。 图 14-30 举例 
说 明了 这 个 过 程 。 图 像 首先 使 用 二 维 高 斯 函数 GCz，>y) 进行 平滑 ， 以 模糊 图 像 、 去 除 噪 声 ， 
并 设置 我 们 想 看 到 的 最 小 边缘 。 





a) 原始 图 像 b) 平滑 图 像 c) 导数 d) 边缘 
图 14-30 利用 Canny 方法 计算 边缘 的 过 程 a) REAR: bd 经 过 6 像素 标准 差 的 高 斯 


函数 模糊 后 的 图 像 ，c) 平滑 后 的 图 像 的 空间 导数 幅度 ; d)〉 阐 值 截取 后 的 边缘 
点 位 置 


图 14-30b 给 出 了 平滑 后 的 图 像 。 计 算 图 像 中 每 个 点 的 空间 导数 幅度 ， 可 以 得 到 图 14-30c。 
注意 ， 急 剧 的 过 渡 出 现在 黑色 衣 领 的 两 边 ， 在 衣 领 的 两 侧 有 幅度 很 高 的 信号 。 最 后 利用 自 适应 
阅 值 在 平滑 图 像 中 选择 具有 最 大 导数 的 点 (图 14-30c)， 并 确定 边缘 的 位 置 。 图 14-30d 给 出 了 
边缘 的 位 置 。 

通过 计算 边缘 在 帧 之 间 的 往复 来 发 现 各 种 场景 分 割 。 对 于 每 个 边缘 位 置 ， 在 男 一 幅 图 像 
中 的 一 小 块 区 域 中 查找 对 应 的 边缘 。 在 两 副 图 像 中 都 出 现 的 边缘 的 数量 提供 了 图 像 的 相似 度 
的 度量 。 在 静态 或 者 缓慢 移动 的 图 像 中 ， 大 多 数 边缘 在 一 帧 到 下 一 帧 之 间 不 会 移动 太 多 。 只 
有 当 整 个 场景 变化 时 ， 由 于 突变 、 溶 解 〈 一 切 都 改变 ) 或 者 淡出 〈 最 终 边 缘 会 不 可 见 )， 这 
个 测度 才 给 出 比较 低 的 相似 度 ， 因 此 是 一 个 场景 分 割 。 基 于 边缘 的 检测 对 于 运动 和 色 度 的 变 
化 没有 基于 颜色 直方 图 的 检测 那么 敏感 。 

以 上 所 描述 的 技术 用 于 通过 查看 小 范围 视频 来 查找 场景 分 割 。 然 而 ， 局 部 图 像 信息 不 会 
告诉 我 们 帧 如 何 组 成 场景 或 者 更 高 层 的 故事 元 素 。 这 需要 通过 层次 分 割 方 案 来 完成 [1493] 。 


14.7.4 语音 分 割 

分 割 边界 通过 判定 信号 中 发 生 的 改变 来 刻画 。 这 个 判定 可 应 用 于 所 有 种 类 的 信号 〈 音 
频 、 视 频 和 文本 ) ， 但 是 我 们 通过 音频 来 说 明 这 个 概念 。 进 行 这 个 判定 的 一 种 概率 方法 是 通 
过 构建 信号 第 一 部 分 的 模型 ， 将 模型 应 用 于 接 下 来 的 信号 ， 直 到 到 达 某 个 点 ， 在 该 点 模型 不 
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再 适用 或 不 能 解释 数据 ， 这 就 成 为 分 割 的 边界 。 这 种 〈 单 边 ) 计算 方法 容易 发 生 错误 ， 因 为 
即使 一 个 新 点 可 能 不 符合 模型 ， 我 们 仍 不 能 确定 这 是 由 于 噪声 还 是 由 于 信号 上 发 生 了 真正 的 
变化 而 引起 的 。 相 反 ， 我 们 可 以 使 用 双边 方法 ， 在 一 个 可 能 的 边界 两 边 都 比较 信号 模型 。 这 
个 测试 可 以 使 用 贝 叶 斯 信息 准则 (Bayesian Information Criteria, BIC) 来 实现 。 音 频 可 以 
表示 为 100Hz 采样 下 的 13 维 MFCC 系数 。 

BIC 首先 为 较 长 的 信号 建立 模型 ， 然 后 再 将 信号 细 分 为 两 个 更 小 的 部 分 ， 建 立 两 个 不 同 
的 模型 。 两 个 分 开 的 模型 总 是 会 比 一 个 模型 更 能 拟 合 数据 ， 因 为 有 更 多 的 参数 来 拟 合 数据 。 
数据 在 边界 的 两 端 不 同 ， 因 此 两 个 不 同 的 模型 会 得 到 最 好 的 结果 。 当 双 模 型 比 单 模型 更 能 预 
测 数据 ， 且 获得 的 益处 足以 抵消 额外 的 复杂 性 时 ， 就 可 以 进行 分 割 。 

当 对 比 单 模型 方法 和 双 模 型 方法 时 ，BIC 检测 通过 引入 对 额外 模型 复杂 性 的 惩罚 项 ， 解 
释 额 外 的 复杂 性 。 给 定 一 个 模型 M 和 数据 D, H i=l, |, N, BICHH [1783], 


BIC(M,) = logP(D,,D,，…,Dv|MN) — slog (14-11) 


其 中 d; 是 模型 M, 中 独立 变量 的 数量 。 第 一 项 表示 这 个 模型 以 多 高 的 概率 解释 数据 的 对 数 似 
然 度 。 似 然 度 越 高 越 好 。 第 二 项 对 高 复杂 度 的 模型 进行 惩罚 ， 因 为 它们 使 用 更 多 的 参数 来 描 
述 。 当 使 用 BIC 来 预测 分 割 边界 时 ， 双 模型 参数 的 数量 d 增加 一 倍 ， 而 数据 点 的 对 数 变化 
量 不 大 。 因 此 ， 我 们 在 信号 中 寻找 某 个 位 置 ， 在 这 个 位 置 ， 双 模型 以 更 高 的 似 然 度 显 著 优 于 
单 模型 ， 且 其 益处 超过 在 公式 14-11 中 额外 参数 的 代价 。 

我 们 使 用 固定 大 小 的 窗口 〈 长 度 大 约 10 秒 钟 )， 在 潜在 边界 的 任 一 边 ， 沿 信号 滑动 边界 
来 寻找 使 BIC 测试 在 双 模 型 上 比 使 用 整个 20 秒 数 据 的 单 模型 增益 最 大 的 点 ， 这 就 是 切 分 数 
据 的 最 优点 。 


14.7.5 “分 割 评价 


镜头 边界 检测 是 相对 成 熟 的 研究 领域 。 可 以 在 文献 中 找到 大 量 的 方法 ， 不 只 是 检测 ， 还 
有 镜头 和 过 渡 效 果 的 分 类 。 多 篇 有 代表 性 的 综述 文章 比较 了 许多 已 提出 的 方法 L231，284， 
1029]. 

早期 镜头 边界 检测 算法 主要 关注 突然 的 过 渡 ， 即 突变 ， 随 后 渐变 的 过 渡 受 到 关注 。 已 经 
提出 了 一 些 识别 特定 过 渡 类 型 的 方法 。 然 而 ， 在 实际 中 ， 这 意味 着 通用 的 算法 需要 多 遍 处 理 


视频 。 有 些 方法 ,例如 那些 使 用 全 局 统计 信息 的 方法 ， 需 要 通过 人 工 或 者 自动 的 方法 设 定 一 


个 或 一 组 阐 值 。 实 际 上 ， 只 有 自 适 应 的 阀 值 才 有 意义 ， 因 为 找到 一 个 适用 于 所 有 种 类 视频 内 
容 的 全 局 阐 值 是 不 太 可 能 的 。 开 发 不 需要 进行 益 值 调整 ， 可 以 鲁 棒 地 实时 检测 突变 和 渐变 ， 
旦 具有 高 的 精度 和 召回 率 折 中 的 单 遍 算法 是 一 个 挑战 。 


14.8 压缩 和 MPEG 标准 


与 文本 文档 不 同 ， 我 们 很 难 见 到 没有 压缩 的 多 媒体 对 象 一 一 否则 文件 会 太 大 。 大 多 数 的 
多 媒体 文件 是 有 损 方式 存储 的 ， 基 于 特殊 的 算法 将 人 脑 不 能 察觉 的 元 余 信 息 去 除 。 例 如 ， 相 
比 于 感知 颜色 的 变化 ， 人 的 眼睛 更 容易 感知 强度 的 变化 。 因 此 ， 减少 颜色 变化 信息 ， 并 不 会 
影响 人 眼 对 图 像 的 感知 。 严 格 地 说 ， 信 息 是 损失 了 ， 但 是 压缩 内 容 的 感知 (perceived) 质量 
可 以 与 原始 内 容 的 一 样 高 。 除 了 节省 存储 空间 这 一 明显 好 处 外 ， 压 缩 可 以 使 数字 视频 应 用 于 
对 带宽 要 求 很 严 的 应 用 中 ， 如 视频 点 播 〈Video-On-Demand，VOD) 和 视频 会 议 。 

五 个 关键 步骤 使 得 图 像 和 视频 压缩 高 效 、 有 用 。 这 些 因素 是 颜色 子 采 样 HAARR IZ 
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变换 去 除 空间 元 余 、 焙 编码 、 运 动 补偿 和 去 除 时 间 宛 余 。 它 们 构成 了 典型 的 最 新 图 像 /视频 
压缩 算法 的 基础 步骤。 这 里 不 讨论 MP3 等 音频 压缩 ， 原 因 有 三 个 : D 解压 缩 音频 不 是 很 困 
ME; 2) (重新 ) 计算 需要 的 特征 向 量 计算 量 不 大 ; 3 用 于 音频 的 有 损 和 无 损 (lossless) 原 
理 与 图 像 和 视频 的 很 相似 [830]。 


14. 8. 1 强度 和 采样 


颜色 和 强度 是 图 片 〈 或 视频 帧 ) 中 最 基本 的 元 素 。 因 此 ， 包 括 多 媒体 信息 检索 在 内 的 图 
像 应 用 构建 在 颜色 和 强度 的 数据 之 上 。 在 照片 成 为 多 媒体 信息 检索 系统 的 一 部 分 时 ， 已 经 可 
以 通过 图 像 传 感 设 备 采 集 图 像 。 作 为 这 个 处 理 的 一 部 分 ， 光 照 强度 作为 时 间 和 空间 函数 的 离 
散 点 采样 。 如 果 图 像 采 样 太 粗粮， 那么 信息 会 丢失 ; 如 果 采 样 太 精细 ， 那 么 图 像 中 会 包含 无 
A ER) 信息 。 通 常 ， 我们 可 以 放心 地 假设 采样 对 图 像 内 容 和 显示 参数 是 正确 的 。 然 而 ， 
不 论 对 什么 颜色 ， 强 度 信息 通常 都 是 均匀 捕获 的 ， 我 们 可 以 看 到 ， 人 了 眼 对 于 不 同 的 颜色 和 变 
换 的 敏感 程度 是 不 均匀 的 。 这 就 提供 了 第 一 个 压缩 的 机 会 。 


14.8.2 ”颜色 


颜色 是 图 像 的 基本 特征 ， 人 们 可 以 感知 和 区 分 它 。 然 而 ， 人 眼 只 对 可 见 光 敏感 ， 可 见 光 
只 是 电磁 波谱 的 很 小 一 个 区 域 。 可 见 光 波长 范围 是 400~700 纳米 (nm). BHR EM AF 
此 范围 内 很 窗 的 频带 ， 人 眼 可 以 区 分 400 000 种 颜色 。 波 长 大 于 700nm 的 构成 红外 线 、FM 
广播 、TV 信号 ， 而 波长 低 于 400nm 的 对 应 于 紫外 光 和 X 射线 。 这 些 都 不 能 被 人 眼 感知 。 

人 们 通常 使 用 对 三 种 不 同 波 段 的 颜色 敏感 的 光 感 知 器 感知 颜色 。 因 此 ， 所 有 颜色 也 通过 
红 、 绿 和 蓝 (RGB) 荧光 体 在 图 形 显示 器 上 显示 。 图 像 中 的 特定 颜色 通过 特定 强度 的 三 种 
颜色 产生 ， 通 常 的 范围 是 从 0 CM) 一 255 〈 亮 ) 。 

由 于 颜色 是 通过 RGB 强度 显示 在 屏幕 上 ， 这 与 人 们 视觉 系统 如 何 感 知 它们 不 同 。 因 此 ， 
实际 上 有 其 他 一 些 颜 色 系 统 ， 利 用 更 接近 人 们 感知 颜色 的 方法 来 表示 颜色 信息 。 一 种 流行 的 
颜色 表示 替代 方案 称 为 色调 、 饱 和 度 和 亮度 值 (HSV)。 在 这 个 方案 中 ， 基 本 颜色 GI, 
绿 、 紫 ) 使 用 色调 的 值 来 编码 。 亮 度 值 〈 或 光亮 度 ) 是 整体 的 光源 强度 或 能 量 。 饱 和 度 的 数 
量 表 示 颜 色 是 品 红 还 是 深 红 一 一 它们 的 纯度 。 相 比 于 RGB 等 基于 硬件 的 方案 ， 这 种 颜色 表 

626] 示 是 与 感知 相关 的 。 

一 个 相关 的 颜色 系统 称 为 YC,sC,， 用 来 作为 图 像 (JPEG) 和 视频 系统 (MPEG 和 
DVD) 的 基础 。 与 HSV RW, YCC, 系统 利用 三 个 值 对 颜色 系统 进行 编码 ;亮度 Y、 蓝 色 
色 度 信号 C 和 红色 色 度 值 C.。 给 定 经 过 人 徊 玛 校正 (对 于 强度 值 的 一 种 非 线 性 校正 ， 可 以 使 
得 感知 强度 更 线性 ， 从 而 弥补 显示 系统 中 的 非 线 性 特性 ) 的 RGB ti, YCC, 值 可 以 通过 如 
下 三 个 公式 给 定 ， 

Y= K,XR+(1—K,—K,) XG+ K, XB 








_1ly B-Y 
G= 9 X=, 
_1.\R-Y - 
cC.= 5 XICK (14-12) 
其 中 ，R、G、B 的 值 表 示 在 RGB 方案 中 红 、 绿 、 蓝 的 强度 ，K, AK, 是 常数 ， 开 ,一 0. 299, 


K,=0. 114, 
降低 颜色 或 者 色 度 信息 的 采样 率 是 图 像 压 缩 中 的 重要 步骤 。 我 们 的 眼睛 对 于 在 亮度 〈 强 
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E) 空间 上 的 变化 比 在 色 度 〈 颜 色 ) 上 的 变化 要 敏感 。 因 此 ， 在 图 像 变换 到 YCC, 方案 后 ，Y 
信号 保持 不 变 ， 而 C 和 C, 信号 在 水 平和 垂直 方向 的 像素 采样 都 会 降低 到 原来 的 1/2 或 者 1/4。 

图 14-31 给 出 了 对 于 一 个 彩色 图 像 降 采样 后 的 效果 和 它 的 三 个 分 量 。 原 始 图 像 看 上 去 很 
完美 《即使 在 本 书 中 显示 为 黑白 图 像 )。 但 是 靠近 看 ， 我 们 可 以 注意 到 C, MC, 信号 在 水 平 
和 垂直 方向 上 的 采样 率 都 降低 1/2。 降 采样 在 黑白 图 像 中 很 清楚 ， 但 是 我 们 在 压缩 的 全 彩色 
图 像 中 却 看 不 到 。 即 使 不 考虑 其 他 步 驮 〈 去 除 空间 宛 余 和 使 用 箭 编码 )， 仅 降 采 样 一 项 就 可 
以 减少 图 像 编 码 需要 的 50% 字 节 数 。 这 是 因为 在 原始 图 像 中 需要 12 个 值 来 描述 2X 2 的 方 
格 ， 在 压缩 图 像 中 仍 需要 4 个 值 来 描述 亮度 或 了 值 ， 但 分 别 仅 需 1 个 值 来 描述 C 和 C,， 共 
计 使 用 6 个 值 而 不 是 12 个 值 。 





原始 图 像 7 分 量 Cs 分 量 CAR 


图 14-31 一 幅 压 缩 图 像 和 它 的 三 个 YCsC, 分 量 。 注 意 ， 压 缩 的 失真 可 以 通过 在 AC, ARP 
寻找 锯齿 状 的 斜 线 看 到 。 最 左边 的 压缩 图 像 看 上 去 “很 完美 ">， 即 使 在 C。 MC, FE 
中 有 明显 的 失真 


14.8.3 有 损 压 缩 


将 图 像 转 换 到 YCsC, 等 与 感知 相关 的 颜色 空间 ， 进 行 了 两 种 类 型 的 压缩 。 首 先 ， 有 损 
压缩 阶段 将 人 眼 不 能 感知 的 信息 去 除 一 一 虽然 信息 丢失 了 ， 但 是 使 用 了 不 被 人 类 察觉 或 很 少 
能 察觉 到 的 方式 。 例 如 ， 我 们 已 经 介绍 颜色 信息 降 采 样 的 好 处 ， 在 有 损 压缩 阶段 之 后 ， 压 缩 
系统 进行 无 损 压 缩 来 去 除 统计 上 元 余 的 信号。 

眼睛 的 敏感 程度 通常 用 感知 不 同 频率 的 能 力 来 描述 。 在 大 约 每 个 视 度 的 6 个 周期 之 外 ， 
我 们 感知 模式 的 能 力 迅 速 下 降 9 。 因 此 ， 一 个 有 效 的 压缩 图 像 的 方法 是 将 图 像 内 容 按 频率 排 
序 ， 只 保留 低频 的 变化 。 

图 像 经 常 按照 它 的 频谱 内 容 描 述 。 图 像 或 者 图 像 的 一 部 分 可 以 利用 离散 伟 里 叶 变 换 
(Discrete Fourier Transform, DFT) 分 解 为 频谱 分 量 。DFT 将 图 像 表示 为 空间 正弦 曲线 的 
MAB, WA 14-32 所 示 。 根 据 图 像 (或 者 图 像 的 一 部 分 ) 内 容 ， 对 不 同 频谱 分 量 赋予 不 
同 的 权重 。 需 要 特别 注意 的 是 ， 一 个 256X256 大 小 的 图 像 转换 为 一 个 256X256 的 频谱 权重 
数组 ， 当 执行 离散 傅 里 叶 逆 变 换 时 ， 可 以 在 浮 点 精度 范围 内 恢复 原始 图 像 。 

因为 我 们 的 了 眼睛 对 低频 空间 频率 最 敏感 ， 所 以 我 们 的 目标 是 用 较 高 的 精度 来 传送 这 些 频 
率 的 系数 。 这 种 频谱 分 析 可 以 使 用 离散 余弦 变换 (Discrete Cosine Transform, DCT), 与 上 
面 描述 的 DFT 相关 ， 它 确保 最 重要 的 频率 以 最 高 的 保 真 度 传输 。 作 为 基于 DCT 的 图 像 压缩 
算法 的 一 部 分 ， 图 像 首 先 被 分 割 为 8X8 像素 的 图 像 块 ， 用 来 完全 覆盖 图 像 。 选 择 图 像 块 大 
小 为 8X8， 是 因为 块 的 大 小 需要 是 2 BREKI., 8X8 这 个 大 小 是 在 低 复 杂 性 与 覆盖 图 像 中 
足够 大 的 有 用 面积 间 的 一 个 合理 折 中 。 

DCT 采用 64 个 不 同 的 基 薄 数 来 表示 每 个 图 像 块 中 的 像素 ， 每 一 个 基 函 数 表示 水 平和 空 
间 频 率 的 组 合 。 图 14-33 给 出 了 这 64 个 基本 数 。 我 们 可 以 计算 一 个 图 像 块 的 DCT， 生 成 64 


O 在 1 个 周期 中 ， 图像 的 一 部 分 从 明 变 暗 ， 再 从 暗 到 明 。1 视 度 与 从 眼睛 到 所 看 到 的 物体 角度 的 1 度 对 应 。 
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个 系数 ， 每 个 系数 对 应 于 一 个 基 函 数 ， 再 计算 一 遍 DCT， 会 得 到 原始 图 像 ， 只 有 无 关 紧 要 
的 舍 人 误差 。 什 么 也 不 会 丢失 [212]. 
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14-32 几 个 不 同 的 空间 频率 以 及 它们 如 何 组 合 表示 任意 数据 。 最 上 面 一 行 给 出 了 4 个 简单 
的 不 同 空间 频率 的 正弦 曲线 ， 每 个 图 像 宽 度 包 含 1 一 15 个 周期 。 根 据 合适 的 权重 将 
前 六 个 正弦 曲线 相 加 ， 我 们 得 到 如 中 间 行 所 示 的 图 像 。 当 NN 增 大 时 ， 我 们 可 以 更 容 
易 地 创造 白 和 黑 之 间 的 锐利 转变 。 最 底 行 清晰 地 显示 了 中 间 行 图 片 的 中 间 水 平 切片 
的 亮度 。 这 是 频谱 分 析 的 基础 
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图 14-33 左边 显示 了 用 于 8X8 DCT 的 64 PRB. BU TBE KERBAR (CPB) 的 DCT A 
期 。 右 边 给 出 的 扫描 方式 表示 了 这 些 块 如 何 排序 ， 使 得 最 重要 的 数据 ， 即 CO, 0) DCT 系 
数 最 先 传送 
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14.8.4 无 损 压 缩 


上 面 介 绍 的 有 损 压缩 技术 通常 后 面 跟 着 无 损 压 缩 技术 一 一 进一步 压缩 数据 ,但 是 不 在 表 
示 上 引入 任何 误差 的 技术 。 一 旦 我 们 去 除了 信号 中 的 感知 元 余 ， 我 们 的 目标 就 变 成 消除 数字 
中 的 统计 模式 。 这 个 领域 常用 的 两 种 方法 是 游程 编码 (Run-Length Encoding, RLE) A4 
编码 (entropy coding). 

作为 DCT 处 理 的 一 部 分 ， 我 们 把 在 8X8 DCT 图 像 块 中 的 像素 根据 它们 的 重要 性 重新 
排列 。 我 们 将 8X8 图 像 块 中 靠近 右 下 角 的 系数 去 除 ， 因 为 它们 是 高 频 分 量 ， 很 难看 到 ， 能 
量 也 低 ， 因 此 不 重要 。 因 为 邻近 的 值 是 相近 的 ， 即 使 在 DCT 之 后 ， 因 为 它们 相关 。 我 
们 可 以 通过 只 传递 差 值 来 提高 效率 。 然 后 我 们 使 用 游程 编码 ， 通 过 传递 值 和 这 个 值 出 现 的 次 
数 来 更 有 效 地 传递 这 些 系数 。 

压缩 的 第 二 个 阶段 称 为 炉 编 码 。 炳 编码 使 用 系数 的 焙 (随机 性 ) 来 设计 最 优 的 编码 策 
略 。 在 文本 领域 ，Lempel-Ziv 是 常用 的 压缩 字符 串 字 符 的 方法 ， 解 压缩 后 可 以 得 到 与 原始 
文本 无 差别 的 内 容 。 在 图 像 压缩 中 ， 霍 夫 曼 编码 使 用 最 少 的 位 数 传 送 每 个 符号 ， 仍 然 可 以 准 
确 地 重建 游程 编码 的 原始 字符 串 。 





14.8.5 WATR 


去 除 元 余 是 压缩 的 关键 。 在 图 像 编码 中 ， 我 们 通过 使 用 有 损 压 缩 技术 ， 忽 略 人 上限 不 能 感 
知 的 图 像 细 节 来 去 除 元 余 。 然 后 ， 我 们 使 用 两 种 无 损 编码 ， 游 程 编码 和 炉 编 码 ， 高 效 地 传送 
剩余 的 信息 。 在 视频 压缩 中 ， 我们 可 以 去 除 两 种 额外 且 相 关 类 型 的 元 余 : 运动 估计 (motion 
estimation) 和 图像 预测 (image prediction), 

运动 估计 和 图 像 预 测 在 视频 中 很 重要 ， 因 为 视频 中 的 一 帧 与 接 下 来 的 一 帧 通常 很 类 似 。 
我 们 可 以 只 传输 两 帧 之 间 的 插值 ， 称 为 增 量 图 像 ， 以 提高 压缩 视频 的 能 力 。 在 理想 状态 下 ， 
我 们 可 以 只 传送 场景 中 的 第 一 副 图 像 ， 然 后 传送 增 量 图 像 ， 根 据 之 前 的 数据 重建 图 像 。 这 意 
味 着 ， 中 间 图 像 只 有 在 我 们 先 解压 缩 完 之 前 所 有 图 像 后 ， 才 能 进行 重建 。 此 外 ， 这 种 方式 对 
错误 很 敏感 ， 使 得 在 视频 中 进行 跳 挨 更 困难 。 

MPEG 压缩 提供 了 另外 一 种 方式 ， 其 中 增 量 图 像 可 以 通过 与 前 向 或 者 后 向 相关 的 完全 
传送 的 图 像 计 算得 到 ， 完 全 传送 的 图 像 称 做 I 帧 ， 我 们 将 在 14. 8. 7 节 中 进行 介绍 。 


14.8.6 运动 预测 


给 定 两 幅 图 像 ， 我 们 对 第 一 幅 图 像 利用 14. 8. 3 节 介 绍 的 方法 进行 压缩 ， 然 后 用 压缩 的 
图 像 来 预测 第 二 幅 图 像 ， 仅 传送 它们 之 间 不 同 的 部 分 。 完 成 这 个 工作 最 简单 的 办 法 是 使 用 第 
一 幅 图 像 的 像素 来 预测 第 二 幅 图 像 中 相同 位 置 的 像素 。 因 为 视频 帧 的 改变 和 物体 的 移动 ， 仅 
使 用 差 集 不 一 定 能 有 效 地 降低 数据 传输 量 。 

因此 ， 视 频 压 缩 使 用 了 更 有 效 的 方法 叫做 运动 补偿 (motion compensation) 。 在 运动 预 
测 中 ， 我 们 基于 在 之 前 图 像 中 附近 图 像 块 的 像素 来 预测 在 新 的 帧 中 每 个 16X 16 图 像 块 的 像 
素 。 这 就 引入 了 在 之 前 帧 中 查找 最 佳 巨 配 的 问题 。 换 句 话 说 ， 我 们 要 查找 用 Ar 和 Ay 表示 
的 位 移 ， 使 得 差异 函数 EAr, Ay) 在 连续 的 两 帧 I AL 间 最 小 ， 表 示 如 下 : 

Elar, Ay) = >) lr + Ary + Ay]— hlr, yD? (14-13) 


因此 ， 图 像 中 每 个 与 邻近 图 像 块 只 有 很 高 (或 者 足够 ) 相似 度 的 16X16 图 像 块 都 用 巴 
测 位 移 函 数 表示 ， 它 只 需要 很 小 的 位 数 。 值 得 注意 的 是 ， 虽 然 这 个 过 程 叫做 “运动 预测 "， 
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但 算法 实际 上 是 寻找 相似 的 像素 块 ， 利 用 它 来 更 容易 地 描述 讨 缩 的 视频 。 最 佳 值 可 能 也 可 能 
不 能 反映 图 像 中 潜在 的 运动 。 

可 以 独立 〈 即 单独 ) 于 或 者 相关 于 邻近 帧 压缩 视频 流 中 的 帧 。 这 些 单独 压缩 的 帧 称 做 
“内 部 ” 帧 或 工 帧 。 在 压缩 流 中 ，I 帧 出 现 的 频率 取决 于 应 用 。 更 具体 地 说 ， 它 取决 于 应 用 可 
以 忍受 的 延迟 。 例 如 ， 在 数字 广播 应 用 中 需要 高 的 刷新 率 来 支持 编辑 和 浏览 ， 相 比 之 下 视频 
会 议 应 用 则 不 需要 。1I 帧 的 比率 与 压缩 没有 必然 联系 。 在 视频 流 中 ，I 帧 对 搜索 起 到 了 关键 
作用 ， 因 为 大 多 数 流 应 用 仅 能 搜索 到 最 后 一 个 1 帧 。 与 流 不 同 ， 直 播 流 中 的 I 帧 频率 较 低 。 
这 就 是 为 什么 数字 频道 不 能 立即 切换 的 原因 。 

图 像 中 每 个 16X16 图 像 块 可 以 通过 分 析 和 保存 预测 误差 来 压缩 : 

IT (zyy) 一 TOzy) 一 Tz 十 Azyy 十 Ay) (14-14) 
其 中 ，1, ERA SHH, 1 是 参考 帧 ， 即 我 们 用 来 作为 参考 的 已 解压 的 帧 ，Az 和 Ay 
是 对 宏 块 的 运动 预测 向 量 ，1. 是 16 X 16 图 像 块 误差 。 重 要 的 是 ，T; 是 解压 缩 的 〈decom- 
pressed) 帧 ， 因 为 所 有 接收 者 可 以 访问 到 ， 即 他 们 不 知道 在 有 损 压 缩 阶 段 产生 了 什么 误差 。 
这 也 就 是 为 什么 1 帧 作为 参考 帧 的 原因 ， 因 为 编码 器 和 译 码 器 不 需要 同步 就 可 以 参考 图 像 。 
在 最 好 的 情况 下 ， 图 像 误 差 L 是 全 0， 因此 仅 需 要 传送 运动 预测 向 量 。 一 般 来 说 ， 误 差 不 是 
0 但 是 足够 小 ， 可 以 很 好 地 压缩 。 当 误差 很 大 时 ， 意 味 着 运动 预测 向 量 不 能 很 好 地 预测 新 由 
中 的 值 。 这 种 情况 下 ， 系 统 规则 会 丢弃 运动 预测 向 量 ， 传 送 整个 帧 作为 I 帧 。 所 有 这 些 方法 
都 是 在 14. 8. 7 节 中 讨论 的 MPEG 压缩 标准 的 一 部 分 。 

A 4-13) 和 运动 预测 所 蕴含 的 方法 是 清楚 的 ， 但 是 它 掩盖 了 三 个 重要 的 细节 。 第 一 ， 求 和 
通常 是 在 一 个 宏 块 〈 图 像 中 16X16 的 区 域 ) 上 进行 的 ， 估 计 了 在 其 他 图 像 中 最 匹配 的 像素 值 。 因 
此 ， 对 于 每 个 补偿 的 计算 需要 花费 256 次 乘法 和 加 法 。 第 二 ， 直 接 实现 这 种 计算 的 代价 ， 随 着 我 
们 考虑 的 最 长 距离 旦 平方 级 增加 。 搜 索 2X2 窗口 是 简单 的 〈 但 是 不 容易 找到 匹配 )， 但 搜索 32X 
32 窗口 的 代价 很 高 。 因 此 人 们 通常 使 用 智能 搜索 策略 来 搜索 尽 可 能 大 范围 的 移动 ， 以 避免 无 效 的 
计算 。 第 三 ， 对 于 每 一 个 宏 块 而 言 ， 最 好 的 运动 预测 向 量 都 是 与 其 他 宏 块 独立 的 。 为 每 个 宏 块 查 
找 最 佳 预 测 的 计算 ， 通常 与 物体 运动 类 似 ,但 是 这 些 计算 忽略 了 我 们 在 14. 2. 2 节 提 到 的 窥 孔 问 
题 。 两 个 图 像 之 间 运 动 预测 向 量 的 例子 见 图 14- 34。 再 次 说 明 ， 运 动 预测 这 个 名 字 有 些 误导 。 


14.8.7 MPEG 标准 


如 今 ， 许 多 多 媒体 信息 检索 系统 中 的 音 - 视 频数 据 使 用 MPEG 编码 ， 它 是 压缩 和 传输 多 
媒体 信息 的 一 种 标准 ， 由 国际 标准 化 组 织 〈JInternational Standards Organization, ISO) 和 - 
国际 电工 技术 委员 会 (International Electro-Technical Commission, IEC) 创建 。 它 不 只 是 
一 个 标准 ， 而 是 为 了 解决 视频 市 场 的 新 兴 需 要 ， 随 着 时 间 演 变 而 来 的 一 系列 标准 (MPEG- 
1, MPEG-2, MPEG-4, MPEG-7 和 MPEG-21)。 

每 个 标准 的 详细 描述 本 身 就 可 以 构成 一 本 书 。 本 节 仅 包括 了 绝 大 多 数 MPEG 标准 中 共 
同 的 基础 原理 ， 并 突出 了 区 分 每 个 标准 的 关键 特征 。 我 们 从 MPEG-1 和 MPEG-2 开始 。 

1. MPEG-1 

MPEG-1 标准 从 1988 年 开始 ，1992 FERREE., BA, 已 经 有 一 个 视频 压缩 标准 
H. 261， 但 是 它 的 质量 低 ， 并 且 不 支持 交互 ， 而 这 是 游戏 行业 的 一 个 关键 需求 。1988 年 ， 
数字 视频 不 适合 通常 的 存储 介质 ， 因 此 像 Video CD 和 CD-ROM 这 些 应 用 也 促进 了 MPEG-1 
的 发 展 。 最 大 的 挑战 是 将 音频 和 视频 存储 在 专门 用 于 音频 的 存储 介质 上 。 此 外 ， 需 要 交互 性 
来 支持 随机 访问 。 
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图 14-34 显示 了 运动 预测 向 量 。 顶 部 显示 了 原始 帧 一 一 个 男孩 移动 到 左边 ， 另 一 个 移 

动 到 右边 。 左 下 图 片 给 出 了 对 于 每 个 16X16 图 像 块 ， 计 算得 到 的 运动 向 量 。 要 
注意 的 是 白色 工 恤 的 左下 部 没有 可 靠 的 方向 ， 这 是 因为 没有 足够 的 纹理 来 可 靠 


地 估计 运动 。 最 后 ， 右 下 图 像 给 出 了 第 一 幅 图 像 使 用 估计 的 运动 向 量 转化 得 到 
的 结果 ， 看 起 来 很 像 第 二 幅 图 像 


MPEG-1 的 视频 质量 可 以 与 VHS 录像 技术 的 视频 质量 相当 ， 传 输 率 为 1. 5Mbps， 其 帧 
的 大 小 为 352X240， 每 秒 29.97 Wi, PERE 192bps 的 立体 声 。 总 之 ， 它 提供 了 一 个 高 效 的 压 
缩 算法 ， 该 算法 使 用 当时 (1993 年 ) 的 硬件 可 以 实时 解码 。MPEG-1 已 经 得 到 广泛 采用 ， 
在 大 多 数 计算 机 和 DVD 播放 机 上 可 以 播放 。3 级 MPEG-1 表示 为 MP3， 构 成 了 最 流行 的 音 
频 压 缩 标准 。 最 后 ， 它 还 用 于 亚洲 最 流行 的 视频 发 布 格式 VideoCD, 

2. MPEG-2 

MPEG-2 的 开发 是 为 了 响应 类 似 宽 带 和 高 清 电 视 等 应 用 ， 它 们 需要 比 MPEG-1 更 高 的 
质量 和 带宽 。MPEG-2 标准 对 于 宽带 提供 的 位 速率 范围 是 3 一 15Mbps， 对 于 HDTV 提供 
15~30Mbps, MPEG-2 和 MPEG-1 共享 了 很 多 视频 编码 单元 。 它 基于 MPEG-1， 但 它 是 为 
了 压缩 传送 数字 广播 电视 而 设计 的 。 与 MPEG-1 相 比 ， 最 显著 的 扩展 是 它 可 以 高 效 压 缩 隔 
行 扫描 视频 的 能 力 。MPEG-2 很 好 地 扩展 到 了 HDTV 所 要 求 的 分 辨 率 和 位 速率 ， 使 得 
MPEG-3 标准 没有 必要 。MPEG-2 解码 器 也 可 以 解码 MPEG-1 位 流 。 与 MPEG-1 不 同 ， 它 
提供 了 多 通道 环绕 立体 声 编 码 。 此 外 ，MPEG-2 提供 了 一 个 简单 类 型 和 一 个 主要 类 型 。 简 单 
类 型 的 目标 是 不 能 承受 大 延迟 的 应 用 ， 例 如 电视 电话 会 议 。 在 这 种 情况 下 ， 此 类 型 不 包含 任 
何 后 向 预测 。 这 就 意味 着 ， 延 迟 会 较 小 ， 因 为 不 需要 在 传输 中 重 排 帧 的 顺序 [711]。 633 

MPEG 使 用 周边 区 域 的 信息 来 压缩 一 帧 中 特定 的 区 域 。 运 动 矢 量 捕获 目标 区 域 的 移动 ， 使 
得 预测 更 容易 。 预 测 不 仅 意味 着 查看 之 前 的 帧 。 实 际 上 ， 使 用 了 三 种 帧 的 类 型 : I 帧 、B 帧 和 
Pei. IWR “AW” Cintra frame), mi BA P Wiza “Shb” Ginter frame), I WERE 
考 其 他 任何 帧 。 它 们 只 是 简单 地 作为 静态 图 像 编码 。 因 此 ， 解 码 可 以 从 任意 I1 帧 开始 。 我 们 说 
I 帧 提供 了 视频 流 中 的 锚 点 ， 因 为 它们 构成 了 随机 访问 的 人 口 点 ， 以 及 错误 恢复 的 同步 点 。 例 
如 ， 在 视频 流 中 大 量 丢失 包 的 情况 下 ， 通 常 不 是 试图 从 这 种 严重 错误 中 恢复 ， 而 是 跳 过 这 段 流 





634 


4644 。 第 14 章 多 媒体 信息 检索 


直接 到 达 下 一 个 1 帧 。 从 错误 恢复 角度 来 看 ， 每 一 个 1 帧 提供 了 一 个 新 的 开始 。 

P 帧 使 用 前 向 预测 来 压缩 和 重 构 。 它 们 的 重 构 需 要 之 前 的 1 帧 或 者 P 帧 。 从 前 面 的 某 一 
个 1 帧 或 者 P 帧 ,结合 运动 预测 向 量 ， 我们 可 以 计算 得 到 新 的 帧 。 

B 帧 或 双向 幢 是 独特 的 ， 因 为 它们 不 仅 需 要 前 向 而 且 还 需要 后 向 预测 。B 帧 的 重 构 需 要 
最 靠近 的 前 一 个 I 帧 或 者 P 帧 ， 还 有 最 靠近 的 后 一 个 1 帧 和 P hi, MPEG 预测 可 以 从 编码 器 
和 解码 器 的 角度 来 描述 。 图 14-35 给 出 了 一 个 在 编码 流 中 的 典型 帧 序列 ， 以 及 帧 间 的 依赖 关 
系 。 编 码 帧 序列 IPBBPBBBI 显示 在 图 中 最 上 面 一 行 。 相 对 应 的 显示 序列 和 帧 顺序 在 下 面 一 
行 中 给 出 。 篆 头 给 出 了 前 向 和 后 向 预测 。 

给 定 帧 依赖 关系 ， 帧 的 编码 /传输 序列 一 定 与 显示 /回放 序列 不 同 。 否 则 ， 解 码 器 要 和 暂 
停 重 构 B 帧 直到 参考 的 P 帧 或 者 B 帧 到 达 。 在 图 14-35 中 给 出 的 显示 序列 可 以 按照 IBB- 
PBBBI 传送 ,或 者 等 价 的 帧 编号 1423856711910。 解 码 器 需要 三 个 缓冲 区 ， 一 个 是 为 了 前 
向 预测 ， 一 个 是 为 了 后 向 预测 ， 另 外 一 个 是 为 了 图 像 重 构 。 在 了 帧 中 的 每 个 块 可 以 是 
内 编码 的 或 者 预测 的 。 类 似 地 ，B 帧 中 的 每 个 块 可 以 是 内 编码 的 或 预测 的 (前 向 、 后 向 
或 双向 )。 
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问 。 最 上 面 一 行 显示 了 为 了 传输 重 排 后 的 压缩 贝 。 最 下 面 一 行 给 出 了 图 像 的 正确 顺序 ， 
弧 形 箭头 给 出 了 每 个 帧 对 于 P 帧 或 B 帧 预测 的 作用 


3. MPEG-4 

MPEG-4 是 一 个 压缩 标准 ， 其 最 初 目 标 是 低位 速率 视频 通信 应 用 。 幸 运 的 是 ， 它 的 应 用 
范围 扩展 了 。MPEG-4 可 以 在 大 范围 的 位 速率 下 工作 ， 范 围 从 几 千 位 /每 秒 到 10Mb/s， 因 
而 具有 很 好 的 扩展 性 。 它 可 以 使 用 基于 对 象 的 压缩 ， 是 超越 块 压缩 的 第 一 个 标准 。 它 从 
1998 年 开始 ， 直 到 现在 还 在 继续 开发 ， 是 最 雄心 勃勃 的 标准 之 一 。MPEG-4 的 愿景 是 提供 
网 络 媒体 和 传统 媒体 之 间 的 桥梁 ， 并 成 为 互联 网 流 媒体 标准 。MPEG-4 支持 与 场景 中 对 象 交 
互 。 它 支持 自然 和 合成 媒体 混合 。 它 提供 了 与 MPEG-1 和 MPEG-2 相同 的 绝 大 多 数 特征 ， 
提高 了 编码 效率 。 此 外 ， 它 还 提供 了 语音 、 音 频 和 视频 压缩 。MPEG-4 有 很 多 等 级 和 类 型 。 
H. 264 是 一 种 视频 压缩 标准 ， 也 称 为 MPEG-4 Part 10， 或 者 MPEG-4 高 级 视频 编码 (Ad- 
vanced Video Coding, AVC) [1354], 

4. MPEG-7 

MPEG-7 是 第 一 个 与 压缩 无 关 的 MPEG 标准 ， 它 与 媒体 语义 相关 [1080]。 它 描述 了 关 
于 内 容 的 元 数据 ， 而 不 是 内 容 本 身 。 从 这 方面 讲 ， 它 可 以 看 成 是 一 个 内 容 描述 标准 。 它 被 描 
述 成 “关于 数据 的 数据 ” (the bits about bits), MPEG-7 规定 了 一 系列 描述 方案 、 描 述 符 、 
指定 描述 方案 的 语言 和 描述 符 编 码 过 程 。 这 种 语言 是 描述 定义 语言 (Description Definition 
Language, DDL), ， 它 使 用 XML 定义 。 用 来 计算 XML MPEG-7 方案 中 实例 值 的 算法 并 不 
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属于 这 个 方案 的 范畴 。 例 如 ，MPEG-7 有 一 个 描述 方案 用 来 描述 组 成 视频 的 片段 或 镜头 列 
K., 但是， 用 来 计算 得 到 这 个 列表 的 分 割 算法 或 者 场景 切换 检测 并 不 是 MPEG-7 标准 所 要 
考虑 的 。 这 与 MPEG-1 用 来 计算 运动 向 量 的 算法 类 似 ， 它 取决 于 具体 实施 者 的 技术 。 

5. MPEG-21 

最 后 ，MPEG-21 是 一 个 对 于 多 媒体 交付 和 消费 的 开放 框架 。 它 用 来 应 对 多 媒体 制作 人 
员 在 描述 多 媒体 知识 产权 时 所 面临 的 挑战 。 在 MPEG-21 中 ， 交 易 和 发 布 的 基础 单元 是 数字 
条 目 (Digital Item，DI)， 即 音频 、 图 像 、 视 频 和 文本 元 数据 的 组 合 ， 它 们 包含 了 这 些 部 件 
间 的 关系 。MPEG-21 定义 文 持 数字 条 目 交 易 的 技术 ， 因 此 用 户 可 以 高 效 无 颖 地 与 它们 进行 
交互 。 版 权 表 示 语 言 (Rights Expression Language) 是 一 个 在 内 容 提 供 者 到 消费 者 多 种 角 
色 间 共享 数字 版 权 信息 的 标准 。 

MPEG-21 目标 的 最 简单 形式 是 提供 一 个 框架 ， 使 得 两 个 人 可 以 在 其 中 高 效 平滑 地 互相 
交互 、 操 作 、 贸 易 、 消 费 和 访问 数字 条 目 。 希 望 这 种 透明 的 交互 可 以 阻止 非法 文件 共享 。 


14.9 趋势 和 研究 问题 


多 媒体 信息 检索 在 过 去 三 十 年 中 ， 经 历 了 至 少 三 个 不 同 的 阶段 ， 基于 内 容 的 、 基 于 文本 
的 ， 以 及 混合 的 方法 。 

学 术 界 和 工业 界 几 十 年 来 进行 了 大 量 的 努力 ， 目 标 都 是 了 解 图 像 的 内 容 ， 使 计算 机 可 以 
生成 索引 ， 以 便 进 行 搜 索 。 由 于 许多 上 文 所 述 的 原因 ， 产 生 了 语义 鸿沟 ， 使 得 这 些 努力 都 没 
有 成 功 。 许 多 失败 的 尝试 包括 IBM (利用 QBIC 系统 进行 图 像 搜 索 ) Virage 和 Musclefish 
(对 于 声音 )。 

2001 年 ， 谷 葡 引 入 了 图 像 搜索 引 敬 ， 使 用 网 页 上 图 像 阅 边 的 文本 来 提高 搜索 结果 。 这 
是 一 个 聪明 的 填充 语义 鸿沟 的 方法 ， 因 为 网 页 上 的 文字 通常 描述 了 伴随 的 图 像 。 为 了 使 这 个 
方法 取得 好 的 效果 ， 文 件 名 和 与 网 页 链接 紧密 相关 的 销 文本 提供 了 最 好 的 信息 ， 应 给 予 较 高 
的 权重 [403]j。 这 些 信息 使 大 规模 Web 搜索 引擎 可 以 使 用 人 们 在 Web 上 产生 的 文字 自动 地 
标注 图 像 。 

这 种 基于 文本 的 Web 图 像 搜 索 方法 又 在 两 个 方向 上 进行 了 扩展 。 第 一 个 方向 ，Flickr 
等 网 站 鼓励 人 们 上 传 照片 并 使 用 几 个 单词 标记 它们 ， 描述 它们 的 内 容 。 搜 索 就 变 成 了 查找 与 
查询 相符 的 图 像 标签 ， 并 且 对 这 些 标签 进行 排序 。 照 片 和 它们 的 标签 可 以 进行 聚 类 CW 
图 14-36)， 但 是 图 像 的 相关 度 仍 然 是 一 个 问题 。Flickr 对 图 像 根 据 时 间 和 称 为 兴趣 度 的 分 数 
进行 排序 。 

第 二 个 方向 ，ESP Game 等 网 站 鼓励 人 们 通过 竞争 标注 图 像 L1644]。 向 两 个 随机 选择 
的 用 户 显示 一 幅 图 像 ， 用 户 独 自给 出 建议 的 标记 词 。 竞 争 体现 在 两 个 用 户 试图 挑选 对 手心 中 
所 想 的 单词 。 每 个 用 户 不 会 看 到 对 方 猜测 的 单词 ， 直 到 出 现 相 符合 的 单词 为 止 ， 也 就 是 说 ， 
一 个 用 户 输入 了 对 手 已 经 输入 的 单词 。 因 为 图 像 是 两 个 用 户 唯 一 共享 的 内 容 ， 所 以 两 个 用 户 
所 共同 挑选 的 词 对 于 图 像 是 好 的 标签 。 通 过 将 同一 幅 图 像 给 不 同 的 用 户 对 ， 一 定 程 度 上 可 以 
确保 标签 是 真实 的 ， 反 映 一 种 共识 ， 而 不 只 是 一 个 侥幸 的 游戏 。 

基于 内 容 的 搜索 方法 完全 基于 自动 提取 的 图 像 特征 ， 而 基于 文本 的 搜索 方法 完全 基于 人 
们 建议 的 单词 ， 它 们 代表 多 媒体 检索 中 的 两 个 极端 。 显 然 ， 中 间 的 某 种 方法 是 更 适合 的 。 正 
如 上 面 所 讨论 的 那样 ， 人 脸 识别 、 语 音 识 别 、 光 学 字符 识别 ， 以 及 其 他 一 些 有 监督 的 自动 内 
容 识 别 和 提取 方法 ， 表 明 计算 机 可 以 有 助 于 减少 多 媒体 检索 中 的 语义 鸿沟 。 
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图 14-36 Flickr“ 中 的 图 像 根据 标签 诊 类 ， 给 出 了 老虎 、 计 算 机 、 花 和 蝴蝶 的 图 片 


14. 10 文献 讨论 


本 章 只 提供 一 些 多 媒体 检索 中 重要 话题 的 介绍 。 本 节 介 绍 一 些 在 本 章 中 没有 介绍 的 重要 
方向 。 这 只 是 一 个 个 人 列表 ， 包含 了 我 们 认为 最 重要 的 和 有 发 展 潜力 的 方向 。 我 们 希望 这 将 
作为 读者 进一步 阅读 的 起 点 。 首 先 ， 介绍 几 本 关于 多 媒体 检索 的 书 [932, 1101, 1392]. 

多 媒体 检索 的 讨论 都 会 提 到 用 来 处 理 大 量 数据 的 机 器 学 习 工 具 (参见 8. 2. 1 节 )。Rich- 
ard Duda 关于 模式 识别 的 书 L517] 和 Chris Bishop 关于 机 器 学 习 的 书 [205] 都 是 找到 基础 
知识 的 好 地 方 。 书 中 的 很 多 工作 使 用 了 产生 式 模型 ， 它 可 以 用 于 根据 概率 生成 每 个 类 的 所 有 
数据 。 但 更 好 的 用 于 模式 分 类 的 技术 是 判别 式 方法 ， 例 如 支持 向 量 机 (SVM) [1439]。 最 
近 的 工作 ， 大 量 采 用 了 弱 分 类 器 ， 每 一 个 具有 不 同 的 类 型 ， 解 决 不 同类 型 的 错误 ， 用 它们 来 
构造 分 类 器 树 或 森林 ， 其 结果 往往 胜 过 一 个 复杂 的 大 分 类 器 [339]. 

另外 两 种 技术 的 重要 性 在 多 媒体 检索 中 也 在 上 升 。 首 先 ， 语 音 识 别 开 始 处 理 多 媒体 数 
据 ， 且 未 来 将 更 加 重要 。Huang 的 书 对 AMM 技术 做 了 很 好 的 介绍 [788]。 其 次 ， 大 规模 
的 多 媒体 数据 库 意味 着 ， 需 要 局 部 敏感 散 列 (Locality-Sensitive Hashing, LSH) 等 随机 算 
法 来 快速 找到 需要 的 内 容 L1490]。 这 些 理解 数据 、 分 类 数据 和 识别 内 容 的 自动 方式 对 于 已 
经 保存 了 数 十 亿 幅 图 像 和 数 百 万 小 时 视频 的 数据 库 是 重要 的 。 

图 像 处 理 中 的 关键 步骤 之 一 是 从 纹理 中 提取 信息 。 有 许多 基于 视 党 感知 模型 、 统 计 特 
征 ， 以 及 Gabor 小 波 特征 C779] 等 过 滤器 的 纹理 检测 方法 。 复 杂 的 纹理 测度 包括 基于 感知 
的 测度 ， 例 如 对 比 度 和 粗糙 度 [1555]， 基 于 Gabor 滤波 器 的 频谱 测度 [615] 和 基于 Wold 
分 解 统计 的 测度 C1038]. 

用 户 有 这 人 么 多 的 内 容 可 用 ， 推 荐 系统 就 变 得 很 关键 。 数 百 万 视频 可 以 提供 给 用 户 ， 系 统 
下 一 次 应 该 显示 哪 一 个 ? 这 是 一 个 关键 问题 ， 因 为 用 户 有 很 多 内 容 的 来 源 ， 一 次 不 好 的 推荐 
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就 会 造成 用 户 去 其 他 地 方 寻找 。 一 个 流行 的 方式 就 是 ， 根 据 类 似 用 户 的 访问 模式 来 进行 推 
荐 ， 这 种 方法 叫做 协同 过 滤 (collaborative filtering) [15]。 有 些 购物 、 音 乐 和 视频 网 站 已 
经 采用 这 种 方法 。 最 近 ，Netflix 挑战 已 经 激发 了 许多 研究 人 员 。 由 Bell 所 完成 的 获胜 工作 ， 
描述 了 基于 很 多 不 同 信息 源 的 最 新 方法 [172]。 协 同 过 滤 的 下 一 代 工 作 需 要 处 理 非常 稀 玖 的 
数据 [134]， 并 考虑 内 容 分 析 (如 Agarwal 所 描述 的 [16])。 最 后 ， 相 比 仅 根据 内 容 的 等 
案 而 言 ， 大 量 的 用 户 评价 往往 可 以 提供 比 基 于 内 容 的 方法 更 好 的 答案 。 这 是 基于 项 间 相 似 度 
系统 的 目标 11494]. 

理解 声音 信号 的 内 容 往往 是 理解 多 媒体 内 容 最 简单 的 方法 。 音 频 是 随 着 时 间 推 移 的 一 维 
信号 ， 对 于 语音 而 言 ， 语义 鸿沟 较 小 。 正 如 上 文中 所 讨论 的 ， 语 音 识 别 是 第 一 步 [788]。 但 
是 ， 如 14. 4.2 节 中 所 介绍 的 ， 语 音信 和 号 通常 受到 背景 音乐 、 于 扰 的 说 话 人 或 者 环境 噪声 的 
破坏 。 人 们 很 容易 理解 这 些 声音 ， 并 把 它们 忽略 掉 。 利 用 计算 机 来 分 割 独立 声音 的 过 程 称 为 
计算 听觉 场景 分 析 (Computational-Auditory-Scene Analysis, CASA), Wang 的 书 [1665] 
给 出 了 很 好 的 关于 目前 技术 的 概述 ， 现 在 需要 更 多 的 工作 将 CASA 与 多 媒体 分 析 进 行 关联 。 

在 音乐 方面 ， 音 乐 检 索 有 一 个 活 既 的 社区 。 每 年 的 ISMIR SW [1337]， 讨 论 从 音乐 图 
书馆 到 音乐 内 容 分 析 在 内 的 所 有 问题 。 此 外 ，《IEEE Transactions on Audio, Speech, and 
Language Processing》 的 专刊 [1491] 和 Casey[340] 以 及 Orio 的 文章 [1232] 都 很 好 地 概 
述 了 目前 的 工作 。 

许多 研究 人 员 利 用 不 同 的 方法 分 析 视 频 摘要 和 浏览 。Xiong[L1729」 定义 了 摘要 的 两 个 主 
BER. 基于 目录 的 ‘Table-of-Content，ToC) 和 基于 加 亮 的 。 这 些 类 别 分 别 对 应 于 自 顶 
向 下 和 自 底 向 上 的 摘要 生成 方法 。PanoramaExcerptsL1561] 结合 图 像 拼 接 和 关键 帧 ， 创 建 
了 视频 故事 板 。 对 于 每 个 镜头 (片段) 显示 的 结果 图 像 有 不 同 的 尺寸 。 一 个 特殊 的 背包 算法 
用 来 优化 版 式 同 时 保持 视频 内 容 的 时 间 线 。 场 景 转移 图 (Scene Transition Graph) [1747, 
1748] 试图 用 图 来 显示 视频 基本 故事 结构 ， 以 捕获 视频 语义 。 

不 论 是 图 像 研 究 人 员 还 是 视频 研究 人 员 都 在 努力 标注 内 容 。 图 像 分 类 领域 里 两 个 常用 的 
数据 库 是 Caltech 101 [551] 和 Caltech 2561677]。 在 这 两 种 情况 下 ， 目 标 都 是 要 在 101 或 
256 类 中 找 出 图 像 内 容 。 这 些 图 像 经 过 很 好 的 构造 ， 只 包含 一 个 单独 的 可 识别 对 象 ， 因 此 这 
个 任务 比 在 大 规模 Web 数据 库 中 查找 要 容易 。 然 而 ， 问 题 仍 然 是 非常 坏 手 的 ， 在 写本 书 的 
时 候 ， 最 成 功 的 方法 是 由 位 于 印度 的 Microsoft 公司 提出 的 [1629]。 

视频 识别 和 视频 分 类 工作 使 用 TRECvidL1495] 数据 库 。 这 些 数据 库 很 重要 ， 因 为 它们 
为 比较 研究 算法 提供 了 一 个 公共 基准 。 在 竞赛 中 ， 两 个 更 重要 的 任务 是 检测 视频 中 的 概念 ， 
例如 主播 或 户外 场景 ， 以 及 通过 人 工 引 导 过 程 来 找到 回答 特定 查询 的 内 容 ， 例 如 一 个 人 在 双 
辟 飞 机 机 可 上 行走 。 关 于 基于 内 容 的 视频 检索 的 近期 综述 可 以 参见 [1498], 

在 高 维 空间 中 找到 最 近邻 ， 例 如 音乐 的 图 像 描 述 ， 是 很 困难 的 问题 。 一 种 解决 方案 是 局 
部 敏感 散 列 (LSH)。 这 是 一 种 常用 的 查找 重复 网 页 的 算法 。 通 常 ， 在 散 列 算 法 中 ， 相 近 的 
字符 串 分 布 得 很 广 ， 因 此 散 列 桶 碰撞 就 很 少 发 生 。 在 LSH 中 ,许多 函数 将 高 维 空间 的 向 量 
映射 到 一 维 的 线性 桶 中 。 与 查询 向 量 出 现在 相同 桶 中 的 向 量具 有 很 高 的 匹配 度 C1490]. 5 
外 一 种 方法 是 学 习 一 个 半 监 督 映射 ,将 相似 的 声音 放 到 相似 的 散 列 桶 中 L133). 

然而 ， 上 面 介绍 的 所 有 使 用 内 容 分 析 的 工作 还 都 没有 成 功 的 产品 。 取 而 代 之 的 是 ， 现 在 
大 多 数 流行 的 系统 使 用 社交 网 络 来 帮助 人 们 找到 他 们 想 要 的 内 容 L901]， 使 用 用 户 生成 的 标 


” 签 来 简明 地 描述 内 容 [516]。 标 签 可 以 描述 对 象 的 地 理 或 时 间 信 息 [900]。 它 们 的 统计 信息 


可 以 用 来 自动 推荐 新 的 标签 [1477] 或 解决 二 义 性 问题 [1677] 。 
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最 后 ， 搜 索 中 最 困难 的 问题 之 一 是 确定 相关 性 和 排序 。Flickr 中 包含 了 10 万 幅 标记 了 
金门 大 桥 (GoldenGate) 的 图 像 ， 将 哪 10 个 最 先 返回 给 用 户 ? 类 似 的 问题 也 出 现在 文本 中 ， 
不 过 文本 中 有 PageRank[263] 等 基于 全 局 链接 结构 来 确定 不 同 网 页 权重 的 算法 。 但 是 多 媒 
体 领 域 还 没有 出 现 类 似 的 算法 。 

有 两 个 有 和 希望 的 方法 一 一 两 者 本 质 上 都 是 在 使 用 关键 词 检 索 之 后 ， 查 找 出 现在 图 像 概率 
分 布 峰值 上 的 图 像 ， 以 缩小 检索 范围 。 对 于 旅游 图 像 的 方法 是 由 Kennedy 提出 的 [902] 。 
Jing[835] 构建 了 邻接 图 来 查找 相似 图 像 。 然 后 通过 使 用 类 似 PageRank 的 算法 找到 图 中 心 
的 图 像 。 近 期 工作 考虑 使 用 基于 重 排 [782] 或 机 器 学 习 排 序 [211] 的 方法 学 习 正 确 的 多 媒 
体检 索 结 果 排 序 。 

然而 ,我 们 需要 更 多 的 工作 来 帮助 用 户 与 互联 网 上 所 有 的 新 媒体 建立 联系 。 现 在 的 媒体 
数据 库 已 经 包含 了 数 十 亿 条 条 目 。 标 签 是 不 完备 的 ,许多 人 也 并 没有 链接 到 社交 网 络 。 标 签 
在 Web 上 将 只 有 有 限 的 应 用 。 一 个 用 户 关于 圣诞 悉 的 图 像 与 其 他 用 户 每 年 圣诞 节 与 Bob 叔 
叔 走 在 沙滩 上 的 图 像 看 上 去 是 十 分 不 同 的 。Web 上 的 隐藏 媒体 ， 其 中 一 些 是 很 有 价值 的 ， 

在 等 待 下 一 代 多 媒体 检索 研究 人 员 去 发 现 。 
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15.1 介绍 


和 图 书馆 一 样 ， 企 业 、 政 府 机 构 以 及 非 鱼 利 性 组 织 必须 处 理 不 同 媒 体 和 格式 的 文件 ， 
而 许多 信息 对 于 机 构 来 说 是 独特 的 和 专属 的 。 机 构 的 一 些 信息 资源 保存 在 关系 数据 库 或 
专门 的 应 用 程序 中 ， 但 很 多 数据 都 是 非 结 构 化 文本 类 型 的 ， 需 要 设计 信息 检索 系统 来 处 
HEN. 

在 机 构 内 部 查找 信息 的 信息 检索 技术 称 为 企业 搜索 enterprise search) 。 企 业 搜索 可 以 
解释 为 对 一 个 机 构 所 拥有 的 数字 文本 材料 进行 检索 [719]， 包 括 搜 索 它们 的 外 部 网 站 、 公 司 
内 网 以 及 它们 持 有 的 其 他 电子 文本 ， 如 电子 邮件 、 数 据 库 记 录 和 共享 文档 等 。 

很 多 时 候 ， 企 业 搜索 工具 的 用 户 党 得 他 们 的 体验 无 法 与 Web 上 的 体验 相 比 。“ 我 可 以 很 
容易 地 在 500 亿 个 Web 网 页 中 找到 我 曾祖 父 的 出 生 证 明 。 为 什么 无 法 在 我 的 小 公司 中 找到 
去 年 的 财务 报告 ?” 有 时， 批评 是 相当 刺耳 的 ， 尽管 所 使 用 的 技术 可 能 是 从 Web 搜索 引擎 衍 
生 而 来 ， 并 由 同一 家 公司 销售 和 支持 的 ， 但 还 是 会 得 到 批评 。 本 章 的 目的 之 一 是 概述 企业 搜 
索 的 问题 是 如 何不 同 于 Web 搜索 的 。 

本 章 介绍 企业 搜索 系统 的 架构 和 系统 中 不 同 组 件 的 功能 ， 还 讨论 通过 研究 真实 的 企业 搜 
索 活 动 并 加 以 刻画 ， 从 而 用 于 科学 研究 的 尝试 。 其 他 主题 包括 企业 搜索 的 评价 方法 、 文 本 检 
Rew (TREC) 中 的 企业 搜索 研究 、 企 业 搜 索 系 统 的 调试 、 发 布 与 搜索 间 的 互动 以 及 对 企 
业 搜索 部 署 所 能 期 待 的 性 能 级 别 。 此 外 ， 还 涉及 两 个 虽然 不 仅 限 于 企业 搜索 ， 但 对 于 企业 搜 
索 特 别 重 要 的 主题 : 联合 搜索 和 搜索 情境 化 /个 性 化 。 


15. 1.1 企业 搜索 的 特点 和 应 用 


企业 搜索 的 许多 特点 为 信息 检索 设计 人 员 带 来 了 挑战 [274，1162j。 企 业 中 的 信息 可 能 
是 结构 化 的 ， 也 可 能 是 非 结构 化 的 。 文 档 有 很 多 来 源 ， 也 许 是 不 同 语言 的 ， 通 常 没有 格式 标 
准 。 元 数据 可 能 通过 某 些 不 同 的 模式 产生 ， 或 者 可 能 根本 没有 元 数据 。 并 非 所 有 的 用 户 对 于 
所 有 的 信息 都 有 相同 的 访问 权限 ， 员 工 记 录 等 一 些 信息 是 高 度 机 密 的 。 联 合 不 同 信息 库 的 需 
求 意味 着 对 于 不 同 来 源 和 不 同 格式 的 数据 必须 建立 一 个 单一 的 排序 列表 ， 而 不 同 的 情境 可 能 
需要 不 同 的 排序 方法 。 也 就 是 说 ， 除 了 简单 的 索引 和 查询 过 程 ， 企 业 搜索 工具 还 必须 执行 很 
多 功能 。 基 本 的 搜索 工具 不 用 做 这 些 工作 。 
基于 Web HAR, 我们 期 望 对 企业 信息 的 查找 应 该 是 快速 和 高 效 的 ， 应 该 通过 单一 的 
界面 完成 。 然 而 ， 在 机 构 内 对 这 些 期 望 通常 无 法 满足 ， 有 证 据 表 明 员 工 要 花费 大 量 的 时 间 用 
于 搜索 ， 但 往往 无 法 找到 所 需要 的 信息 来 执行 他 们 的 工作 。 例如， 
。 据 国 际 数 据 公 司 (International Data Corporation, IDC) 报告 ， 一 家 拥有 1000 名 信 
息 工作 人 员 的 公司 ， 由 于 较 差 的 搜索 ， 预 期 每 年 浪费 超过 500 万 美元 的 工资 。 他 
们 报告 说 ， 人 们 每 周 花费 9~10 小 时 来 搜索 信息 ， 并 且 有 1/3~1/2 的 情况 没有 成 
功 [805]. 
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。 据 Butler 集团 报告 ， 公 司 工资 的 10% 在 无 效 的 搜索 中 浪费 了 [526]. 
。 IRR (Accenture) 在 2007 年 对 于 1000 个 中 层 管理 人 员 的 调查 中 发 现 ， 他 们 每 
天 花费 2 小 时 进行 信息 搜索 ,而 他 们 通过 搜索 得 到 的 信息 超过 一 半 是 无 用 的 
[713]. 

另 一 个 在 财务 上 受 企 业 搜索 影响 较 大 的 领域 是 电子 信息 发 现 领域 。 为 了 支持 与 高 价值 诉 
讼 关联 的 发 现 活动 [1378]， 机 构 越 来 越 需要 能 够 对 其 内 部 所 有 信息 源 以 可 审计 方式 搜索 的 
工具 ， 即 使 这 些 搜索 是 由 外 部 的 专业 人 员 完 成 。 此 外 ， 高 效 地 搜索 机 构 的 对 外 网 站 对 于 机 构 
的 使 命 来 说 至 关 重 要 ， 无 论 是 传播 信息 、 支 持 政府 活 动 、 匹 配 职位 趾 请 者 和 空缺 职位 ， 还 是 
网 上 销售 。 电 子 商 务 网 站 通常 由 搜索 工具 驱动 ， 其 功能 包括 支持 搜索 产品 信息 和 评论 、 实 际 
产品 的 真实 购买 页 面 、 搜 索 驱 动 的 广告 和 智能 推荐 。 因 此 ， 外 部 网 站 上 的 企业 搜索 软件 对 于 
客户 和 利益 相关 者 的 利益 来 说 是 个 高 价值 的 信息 源 。 此 外 ， 他 们 产生 的 查询 数据 可 以 提供 与 
客户 或 社区 兴趣 相关 的 趋势 和 突 发 情况 的 信息 ， 并 识别 出 尚未 满足 的 需求 。 事 实 上， 有 些 领 
先 的 企业 搜索 工具 可 以 提供 详尽 的 报告 能 力 。 

企业 搜索 工具 也 执行 其 他 的 功能 。 搜 索引 区 通常 给 机 构 网 站 提供 导航 链接 、RSS 订阅 、 
分 面 浏览 和 分 类 显示 等 功能 。 当 多 个 项 目 团 队 组 合 到 一 起 时 ， 搜 索 工具 在 机 构 内 部 越 来 越 多 
地 用 于 专家 定位 。 此 外 ， 自 动 生成 的 内 部 报告 可 能 包括 从 搜索 结果 中 得 到 的 摘要 。 最 后 ， 
Web 发 布 和 搜索 在 几乎 所 有 的 公司 内 网 中 都 会 得 到 充分 利用 。 

企业 搜索 几乎 一 定 要 包括 一 个 小 规模 的 Web 搜索 维度 。Upstill 等 人 [1619] 表明 锚 文 
本 和 PageRank 的 变 体 在 小 规模 Web 环境 中 是 有 效 的 ， 虽 然 简 单 地 对 人 度 计 数 就 可 以 得 到 
PageRank 的 大 多 数 优 点 。Hawking 等 人 [720] 研究 了 利用 机 构 外 部 链接 增强 机 构 网 站 搜 
索 质量 的 可 能 性 。 他 们 发 现 所 研究 的 大 多 数 机 构 的 外 部 链接 往往 引用 网 站 的 入口 页 ， 只 有 一 
小 部 分 链接 其 他 的 县 标 。 因 此 ， 它 们 对 于 解决 特定 网 站 的 内 部 问题 的 价值 是 微不足道 的 。 
Hawking 和 ZobelL724] 研究 了 主题 元 数据 在 回答 由 用 户 提 交 到 机 构 网 站 的 查询 时 的 价值 ， 
并 且 关 注 于 元 数据 标记 。 由 于 内 在 的 局 限 性 和 实现 不 力 的 情况 (尽管 资源 保证 )， 他 们 发 现 
主题 元 数据 在 回答 查询 中 只 有 极 小 的 价值 。 虽 然 已 经 有 一 些 技术 从 Web 搜索 转化 成 企业 搜 
R, 但 这 两 个 应 用 还 是 在 很 多 重要 的 方面 存在 差异 ,我 们 将 在 本 章 介 绍 。 一 个 主要 的 不 同 
是 ， 在 机 构 内 制造 垃圾 没有 经 济 方面 的 回报 。 


15.1.2 企业 搜索 软件 


企业 搜索 软件 已 经 使 用 了 一 段 时 间 ， 某 些 早 期 的 系统 是 信息 检索 科学 研究 的 衍生 产品 。 
有 些 公司 的 企业 搜索 产品 是 很 著名 的 ， 如 FAST Search& Transfere (2008 年 被 Microsoft 
收购 ) 和 Autonomy® (2005 年 收购 了 Verity, 2009 年 收购 了 Interwoven 内 容 管 理 系 统 
(Content Management System, CMS) 技术 )。IBM、Oracle 和 谷歌 等 各 大 搜索 和 软件 公司 
也 针对 这 个 市 场 开 发 了 产品 。 谷 歌 的 Search Appliance 由 于 其 易 用 性 和 用 户 对 于 谷歌 的 熟悉 
而 变 得 流行 [70] 。 

提供 企业 搜索 产品 的 规模 较 小 的 公司 可 能 通过 提供 特殊 的 功能 得 到 合适 的 地 位 。Vivisi- 
mo? 是 提供 聚 类 输出 的 搜索 引擎 开发 者 ， 他 们 也 有 针对 公司 市 场 的 企业 搜索 产品 。Endeca® 


http: /www. fastsearch. com/。 
http: //www. autonomy. com/, 


http; //vivisimo. com, 


8000 


http; //endeca. com/ 。 
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提供 了 带 有 “引导 导航 ”功能 的 产品 ， 提 供 了 可 能 的 搜索 过 滤器 作为 结果 界面 的 一 部 分 。 
Funnelback® 专门 从 事 用 于 企业 、 网 站 和 门户 网 站 的 “软件 即 服务 ” (Software as a Service, 
SaaS) 。 


15. 1.3 工作 场所 搜索 


将 企业 搜索 与 员工 在 工作 时 进行 的 其 他 搜索 区 别 开 来 是 有 用 的 。 大 多 数 员工 都 可 以 使 用 
“桌面 搜索 ”功能 ， 这 或 者 内 置 于 他 们 个 人 计算 机 的 操作 系统 中 ， 或 者 由 Copernic? REKO 
提供 。Dumais 等 人 [518] 报告 了 对 这 种 搜索 类 型 的 扩展 ， 它 包括 搜索 用 户 之 前 看 过 的 所 有 
文档 (如 下 载 的 网 页 ， 收 到 的 电子 邮件 等 )。 

一 般 情况 下 ， 我 们 可 以 将 所 有 由 员工 执行 的 搜索 归于 “工作 场所 搜索 ”这 一 标签 下 。 这 
-个 标签 不 仅 覆 盖 了 对 企业 信息 、 桌 面 保存 的 信息 和 之 前 浏览 的 信息 的 搜索 ， 而 且 还 包括 对 机 
构 外 部 信息 源 的 搜索 ， 如 Web、 专 利 数 据 库 、 法 律 资源 、 订 阅 信息 服务 等 。 

由 于 每 一 名 员工 所 检索 的 资源 集 是 不 同 的 ， 并 且 机 构 对 所 有 相关 信息 建立 组 合 索引 也 是 
不 可 行 的 ， 所 以 对 于 工作 场所 搜索 来 说 ， 唯 一 可 行 的 单一 搜索 框 方法 是 “个 人 元 数据 ” 
[1580，1583]。 在 [1580] 中 的 一 个 早期 综述 说 明了 不 同 员工 所 访问 的 资源 是 多 样 化 的 。 


15.2 企业 搜索 任务 


在 非 结 构 化 信息 和 即兴 搜索 需求 对 机 构 业 务 的 重要 程度 方面 ， 不 同 机 构 有 很 大 不 同 。 混 
凝 土 厂商 或 美发 沙龙 对 于 企业 搜索 的 需求 可 能 很 少 。 而 内 部 和 外 部 信息 的 搜索 (不管 是 非 结 
构 化 的 还 是 半 结 构 化 的 ) 对 于 政策 顾问 公司 的 生产 力 和 竞争 力 却 是 很 重要 的 。 很 明显 ， 它 对 
于 国家 情报 机 构 的 运作 是 至 关 重 要 的 。 在 技术 支持 中 心 ， 搜 索 的 有 效 性 〈 对 于 文档 和 客户 历 
史 ) 会 决定 生产 力 和 便利 能 力 。 


15.2.1 搜索 支持 任务 的 例子 


员工 执行 的 很 多 任务 可 通过 使 用 搜索 工具 而 实现 或 者 变 得 更 高 效 。 搜 索 有 时 由 企业 范围 
的 搜索 工具 所 支持 ， 但 在 其 他 情况 下 ， 搜 索 髓 人 到 特定 的 应 用 中 。 现 在 我 们 给 出 一 些 例子 ， 
这 些 都 是 由 特定 应 用 或 者 集成 信息 检索 工具 所 支持 的 任务 。 这 个 列表 还 远 远 没 有 完成 ， 但 对 
可 能 遇 到 的 应 用 范围 给 出 了 一 个 建议 。 

1. 批准 员工 旅行 请 求 

为 了 决定 是 否 批准 旅行 请 求 ， 经 理 需 要 各 种 信息 : 员工 是 什么 级 别 的 ? 该 活动 对 于 员工 
和 公司 是 否 有 益 ? 员工 去 年 在 旅行 上 花费 了 多 少 ? 公司 对 于 这 类 旅行 的 政策 是 什么 ?员工 表 
现 是 否 优秀 ? 他 们 缺席 工作 是 否 会 造成 生产 的 损失 或 者 不 能 满足 最 后 期 限 ? 在 这 种 情况 下 ， 
一 个 新 任命 的 经 理 需 要 搜索 各 种 信息 源 ， 如 电子 邮件 、 人 力 资 源 数据 库 和 企业 内 网 的 政策 部 
分 ， 以 做 出 正确 的 决定 。 

2. 在 呼叫 中 心 回 复 电 话 

很 多 呼叫 中 心 依靠 在 精心 准备 的 文档 上 操作 高 效 的 搜索 工具 来 最 小 化 运营 成 本 。 如 果 搜 
索 工具 总 是 可 以 找到 正确 的 答案 页 面 ， 那 么 一 个 不 太 熟 练 业务 ， 或 者 没 怎么 经 过 培训 的 员工 
就 可 以 在 低 工资 下 工作 。 如 果 搜 索 工具 减少 了 寻找 答案 时 浪费 的 时 间 ， 那 么 客服 电话 就 可 以 





© http://funnelback. com/。 
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更 简短 ， 相 同 数目 的 接线 员 可 以 处 理 更 多 的 电话 。 

3. 在 争论 过 程 中 回应 

当 项 目 失 败 或 者 犯错 误 时 ， 为 了 劝告 或 惩罚 员工 ， 或 者 决定 采取 什么 样 的 姿态 与 外 部 机 
构 进行 谈判 ， 机 构 可 能 需要 进行 能 逆转 局 势 的 沟通 。 对 于 关键 电子 邮件 和 项 目 文档 的 搜索 可 
能 是 做 出 正确 回应 的 关键 。 

4. 写 一 个 提案 

对 于 一 家 私营 公司 ， 回 应 一 个 大 的 “征求 方案 ”或 者 “要 求 招标 ”的 机 会 可 能 是 一 个 耗 
时 和 昂贵 的 业务 。 许 多 这 样 的 标书 需要 对 成 百 上 千 个 问题 进行 回应 ， 导 致 提案 文档 超过 100 
页 。 如 果 搜 索 工具 可 以 快速 、 准 确 地 定位 到 之 前 的 标书 中 能 给 出 最 好 回应 的 段落 和 图 片 ， 并 
且 定 位 到 其 他 有 用 的 当前 公司 文档 ， 那 么 花费 会 大 大 地 减少 。 

5. 获得 并 捍卫 专利 

Dupont, BASF 和 Pfizer 等 工业 公司 的 草 收 基本 上 是 依靠 他 们 的 专利 清单 。 在 投资 数 十 
亿美 元 到 工厂 中 制造 新 的 化 学 品 或 药品 之 前 ， 他 们 必须 确定 他 们 的 知识 产权 是 安全 的 。 工 业 
公司 一 般 订阅 商业 专利 数据 库 和 文献 服务 ， 并 利用 专业 的 专利 检索 工具 。 专 利 搜索 带 来 了 许 
多 挑战 ， 包 括 : SABENA: 需要 搜索 所 有 语言 的 专利 ; 需要 搜索 图 表 、 化 学 结构 
和 文本 ; 需要 识别 化 学 和 生物 名 字 的 变 体 ;需要 为 一 些 因 素 强 加 关系 约束 ， 如 反应 温度 。 关 
于 搜索 及 其 应 用 领域 的 信息 必然 是 高 度 机 密 的 ， 因 为 这 对 于 投资 者 和 竞争 对 手 来 说 将 是 很 有 
价值 的 。 知 识 产 权 搜索 有 几 种 形式 : 

。 SARE. 确定 某 一 特定 领域 的 专利 缺口 ， 以 便 将 公司 研究 投入 到 富有 成 果 的 
领域 。 
操作 自由 : 由 该 公司 创造 的 技术 是 否 违 反 其 他 人 持 有 的 专利 ? 

新 奇 度 搜索 : 新 的 发 现 是 否 有 可 能 成 为 专利 ? 
© 专利 无 效 搜索 ， 我 们 能 否 在 某 个 领域 找到 先前 的 工作 ， 使 得 我 们 能 够 击 俩 由 竞争 者 
持 有 的 、 阻碍 我 们 业务 的 专利 ? 

6. 向 现 有 消费 者 销售 

如 果 做 到 下 面 这 些 ， 那 么 向 客户 成 功 推 销 的 可 能 性 会 大 大 地 增加 : 

。 推销 的 目标 是 有 针对 性 地 解决 客户 的 实际 问题 。 

。 供应 商 表 现 出 他 们 有 能 力 、 专 业 ， 且 留心 客户 的 需求 。 

。 供应 商 能 确定 在 客户 机 构 中 谁 是 最 有 用 的 联系 人 ， 他 们 所 扮演 的 角色 是 什么 。 

成 功 的 客户 关系 管理 (Customer Relationship Management, CRM) 依赖 于 能 否 有 效 地 
搜索 、 分 析 以 及 展示 与 该 客户 有 关 的 所 有 数据 ， 包 括 合 同 、 发 票 、 销 售 查询 、 电 子 邮 件 以 及 
支持 请 求 。 向 准 客户 销售 也 可 以 从 有 效 的 搜索 中 获 益 ， 但 在 这 种 情况 下 检索 到 的 信息 会 在 企 
业 外 部 。 

7. 专家 发 现 

专家 发 现 是 大 型 机 构 中 的 一 个 特定 问题 。 在 即兴 问题 求解 或 者 试图 整合 一 个 项 目 团队 
时 ， 这 个 需求 可 能 就 会 出 现 。 在 某 些 情况 下 ， 一 个 专用 的 应 用 软件 维护 一 张 专家 登记 表 ， 它 
以 正常 数据 库 的 形式 更 新 和 查询 。 在 其 他 情况 下 〈 见 下 面 的 CSIRO 例子 ) ， 可 以 从 创建 和 发 
布 的 用 于 其 他 目的 的 信息 中 挖掘 专家。 在 后 一 种 类 型 的 系统 中 ， 确 定 候选 专家 集 是 一 个 重要 
的 问题 。 在 网 页 集中 识别 符合 员工 模式 的 电子 邮件 地 址 是 很 容易 的 ， 但 是 抽取 到 的 地 址 中 有 
多 少 属于 已 经 离开 机 构 的 员工 ， 其 他 又 有 多 少 是 行政 或 客服 人 员 而 不 是 技术 专家 的 ? 

CSIRO[440] 开发 了 一 个 早期 的 专家 发 现 系统 原型 ， 它 将 当前 的 员工 数据 库 与 息 取 的 网 
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页 求 交 集 。 包 括 相 关 员 工 的 名 字 或 该 员工 的 电子 邮件 地 址 的 文字 段落 被 抽取 出 来 ， 然 后 添加 
到 一 个 以 该 员工 命名 的 代理 文档 中 。 当 在 专家 集中 执行 专家 查询 后 ， 对 表示 员工 的 文档 进行 
排序 ， 然 后 返回 排名 最 高 的 员工 在 员工 数据 库 记 录 中 的 详细 联系 信息 。 在 TREC 的 企业 搜 
索 任务 中 的 后 续 研 究 展示 了 改进 的 方法 ， 包 括 Balog 等 人 的 语言 模型 [131，132]。 在 这 种 
情况 下 ，Serdyukov 等 人 [1450] 展示 了 在 机 构 内 部 识别 专家 时 来 自 于 外 网 的 访问 信息 会 有 
所 帮助 。 

在 专家 发 现 系统 的 可 用 文档 中 ， 相 关 文 本 数量 可 能 并 不 反映 一 个 人 的 专业 程度 ， 所 以 ， 
如 何 展示 自动 专家 发 现 系 统 的 结果 对 于 系统 是 否 被 接受 可 能 是 个 关键 。 公 司 媒体 联络 代表 的 
名 字 和 详细 联系 方式 可 能 会 出 现在 公司 的 所 有 技术 文件 上 ， 而 获得 诺 贝 尔 奖 的 科学 家 可 能 在 
Web 或 者 内 部 电子 文档 中 很 少 出 现 。 

8. 运营 电子 商务 网 站 

零售 商 、 和 餐饮 供应 商 、 旅 行 社 和 就 业 服务 等 企业 的 部 分 或 全 部 的 收入 依赖 于 电子 商务 网 
站 。 典 型 的 电子 商务 网 站 提供 了 产品 搜索 功能 ， 以 及 查询 推荐 、 分 面 导 航 和 自动 生成 的 交叉 
销售 建议 。 电 子 商 务 网 站 的 排序 算法 必须 考虑 到 各 种 非 传 统 的 因素 ， 如 库存 水 平 、 使 用 时 间 
和 不 同 产品 的 利润 率 ， 以 及 商品 是 否 “ 减 价 出 售 ” 或 者 参与 某 些 促销 活动 。 电 子 商 务 网 站 有 
时 是 定制 的 数据 库 应 用 ， 但 是 它们 也 可 能 基于 具有 相关 功能 的 企业 搜索 工具 建立 。Endeca、 
Autonomy 和 FAST 在 这 个 领域 是 众所周知 的 。 


15.2.2 ”搜索 类 型 


BroderL268] 确定 了 三 种 不 同类 型 的 网 页 搜索 ,导航 型 、 事 务 型 和 信息 型 ( 见 7.2.1 
节 )。 这 三 种 类 型 的 查询 都 可 能 会 提交 到 企业 搜索 引擎 ， 例 如 : 

。 导航 型 :“ 图 书馆 ”、“ 人 力 资源 "、“ 塑 料 部 门 ”。 

。 事务 型 :“ 购 买 停车 证 ”“ 更 新 借 书 证 ”、“ 索 取 花 费 明 细 ”。 

。 信息 型 :“ 知 识 产 权 政 策 ”、“ 在 西班牙 的 客户 ”、“ 产 品 xyz -错误 57”。 

这 些 类 别 的 很 多 子 类 体现 在 基于 搜索 的 任务 上 ， 如 15. 2. 1 节 介 绍 的 。 


15.2.3 研究 企业 搜索 


研究 一 个 你 不 是 其 员工 的 机 构 的 内 部 搜索 行为 是 非常 困难 的 。 在 一 般 情 况 下 ， 机 构 不 希 
望 自己 的 竞争 对 手 知 道 其 员工 会 搜索 什么 ， 甚 至 他 们 搜索 什么 文档 集 。 出 于 这 个 原因 ， 查 询 
日 志 是 不 可 能 对 公众 公开 的 ， 甚 至 对 于 外 部 研究 人 员 的 研究 也 不 行 。 在 任何 情况 下 ， 从 提交 
的 查询 来 推测 任务 是 很 困难 的 。 

出 于 类 似 的 原因 ， 在 一 般 情 况 下 ， 不 可 能 允许 实验 人 员 带 着 笔记 板 跟着 员工 ， 并 记录 他 
们 的 搜索 行为 。 不 仅 如 此 ， 观 察 人 员 的 存在 可 能 会 改变 人 们 的 行为 。 最 后 ， 当 搜索 只 是 员工 
活动 的 一 小 部 分 时 ， 实 验 人 员 收 集 有 用 数据 的 时 间 就 会 非常 长 ， 以 至 于 无 法 负担 得 起 。 尽 管 
有 这 些 问 题 ， 但 Hertzum 和 PejtersenL756] (工程 师 )、Hansen 和 jarvelin[697] 〈 在 瑞典 专 
利 局 的 搜索 人 员 )， 还 有 Freund 及 其 同事 [590，589] 〈 软 件 工程 师 ) 已 经 对 机 构 内 部 的 搜 
索 行 为 进行 了 研究 。 

对 于 2007 年 和 2008 年 TREC 会 议 的 企业 搜索 任务 [126]， 澳 大 利 亚 政府 研究 机 构 
CSIROS 的 科学 传播 者 (Science Communicators) 对 两 个 真实 任务 给 出 了 信息 需求 声明 和 
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“相关 性 ”判断 数据 ， 这 两 个 真实 任务 来 自 于 CSIRO 将 科学 研究 介绍 给 公众 和 潜在 合作 者 的 
过 程 中 。 以 下 转述 其 研究 任务 : 

D “REX CSIRO 在 某 个 重要 领域 中 的 研究 撰写 一 个 综述 性 的 网 页 例如， 旱地 盐 碱 
化 。 请 给 我 在 CSIRO 内 部 找 出 一 系列 重要 的 网 页 ， 它 们 将 成 为 综述 中 链接 的 较 好 候选 。 例 
如 ， 描 述 这 个 领域 的 重要 CSIRO 项 目 、 报 告 、 软 件 工 具 、 地 图 和 和 数据 表 的 网 页 ， 这 些 可 能 
对 合作 伙伴 或 公众 很 有 用 。” 

2)“ 对 于 相同 的 综述 网 页 ， 查 阅 CSIRO 网 页 内 容 ， 并 确定 CSIRO 在 该 主题 的 专家 。 你 
可 以 利用 这 样 的 事实 ; CSIRO 的 电子 邮件 地 址 有 这 样 的 形式 firstname. lastname @ 


csiro. au,” 


15.3 企业 搜索 系统 的 结构 

机 构 内 部 发 布 的 非 结构 化 文档 的 数量 有 几 个 数量 级 的 差异 。 很 明显 ， 有 些 机构 几 乎 没有 
共享 的 电子 文档 ， 而 根据 2003 年 的 报告 [541]，IBM 的 企业 网 包含 大 约 五 千 万 个 文档 。 

随 着 内 部 出 版 材料 的 规模 和 复杂 性 的 增加 ， 高 效 、 恰 当 的 索引 构建 工作 流 的 重要 性 也 在 
增加 。 图 15-1 描绘 了 为 异 质 企 业 数据 建立 统一 化 索引 的 三 大 阶段 : 收集 、 提 取 和 索引 。 











图 15-1 收集 和 索引 工作 流 


15. 3.1 收集 


收集 阶段 ， 对 应 于 Web 搜索 引擎 的 息 取 (如 第 12 章 介 绍 的 )， 可 能 非常 复杂 。 第 一 ， 
RAS MARL) ABB Web 数据 的 覆盖 度 和 新 鲜 度 可 能 会 面临 与 外 部 Web 相同 的 很 多 挑战 一 一 重 
定向 、 在 不 同 URL 发 布 的 相同 内 容 的 副本 、 识 别 最 近 改 变 内 容 的 困难 性 、 近 似 重复 检测 和 
网 络 带宽 问题 〈 例 如 ， 在 不 同 国家 或 城市 的 办 公 室 之 间 )， 以 及 从 JavaScript 和 Flash 提取 
链接 的 难度 。 然 而 ， 值 得 注意 的 是 ， 在 企业 内 部 可 以 无 风险 地 部 署 某 些 技术 ， 通 过 人 允许 服务 
器 提供 更 改 内 容 的 列表 (甚至 部 分 索引 )， 来 降低 息 取 的 成 本 和 持续 期 。 此 外 ， 除 权限 问题 
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和 高 效 找 出 最 近 更 改 内 容 的 需求 之 外 ， 扫 描 文 件 系统 相对 来 说 比较 简单 。 此 外 ， 仔 细 起 草 的 
SQL 查询 可 能 会 允许 仅 提取 数据 库 收 集 所 需 的 全 部 有 用 信息 。 

第 二 ， 在 可 能 部 署 了 众多 企业 软件 应 用 的 机 构 中 ， 成 功 的 收集 依靠 可 用 的 、 适 当 API 
或 者 适配器 软件 。 所 谓 的 “企业 软件 ”， 包 括 记 录 管 理 (RMS、EDRMS、ECM) 系统 、 客 
户 关 系 管理 系统 ‘CRM) 和 内 容 管 理 系统 (Content Management System, CMS) 等 通用 类 
别 ， 每 个 类 别 中 包含 很 多 相互 竞争 的 专 有 系统 。 系 统 中 会 出 现 一 些 特殊 的 问题 。 如 在 Lotus 
Notes 中 ,不同 类别 的 对 象 “ 如 表格 、 视 图 、 文 档 、 导 航 和 代理 ) 可 以 通过 原生 API 和 标准 
的 Web 发 布 (Domino) 访问 。 一 方面 , 一 个 “文档 ”可 以 由 多 个 内 容 片 段 合成 ; 而 另 一 方 
面 ， 同 一 基本 内 容 的 多 个 视图 可 能 发 布 在 多 个 URL 上 上。 例如， 所 有 来 自 某 个 匿名 机 构 的 
URL 实际 上 代表 相同 的 文档 。 

e .../d/xyz\ %40. nsf/mf/3240. 1? OpenDocument 

« .../D/xyz@. nsf/b06660592430724fca2568b5007 b8619/ 1¢87d9876bel 1 ee8ca256£d5007722 

a8!OpenDocument 

© .../D/xyz@. nsf/5087e58f30c6bb25ca2568b60010b303/1c87d9876bel 1ee8ca256£d5007722 

a8 ! OpenDocument 

e .../d/xyz@. nsf/w2. 2. 2/1c87d9876 bel 1lee8ca256£d5007722a8 | OpenDocument 

e .../d/xyz@. nsf/w2. 2. 1/1c¢87d9876bel lee8ca256£d5007722a8 ! OpenDocument 

从 数据 库 中 收集 内 容 对 象 可 以 避免 对 重复 内 容 建 立 索 引 ， 但 这 通常 难以 生成 适合 在 搜索 
结果 中 展示 的 URL。 此 外 ， 标 签 、 锚 文本 和 用 户 行为 数据 〈 这 可 以 极 大 地 改进 文档 排序 ) 
等 注释 可 能 与 URL 相关 ， 而 不 是 与 内 容 片 段 相关 。 

第 三 ， 在 许多 应 用 中 都 需要 获得 所 收集 文档 的 访问 控制 列表 (Access Control List, 
ACL) 和 外 部 元 数据 〈 即 关于 文档 的 信息 ， 它 记录 在 一 个 单独 的 数据 库 或 注册 表 中 ) 。 

第 四 ， 电 子 邮 件 是 否 可 以 被 发 送 者 和 接收 者 之 外 的 其 他 人 检索 到 ， 这 取决 于 企业 决策 。 
企业 可 能 认为 发 送 到 机 构 地 址 的 邮件 不 是 员工 私有 的 ， 也 可 能 认为 需要 将 机 构 和 员工 的 电子 
邮件 分 开 。 在 某 些 机 构 中 ， 每 一 个 传人 的 消息 会 归档 ， 从 而 是 可 搜索 的 ; 在 另外 一 些 机 构 
中 ， 电 子 邮 件 搜索 将 限制 在 由 Exchange 等 邮局 软件 维护 的 数据 库 ; 其 他 搜索 只 可 能 基于 个 
人 邮箱 ， 这 导致 员工 离职 时 的 交接 问题 。 . 

第 五 ， 有 些 机 构 热 情 地 拥护 和 采用 所 谓 的 “Web 2.0” 方 法 。 如 分 众 分 类 Colkson- 
omy) 标签 、FaceBook 形式 的 社交 网 络 、 博 客 、 妈 时 消息 和 “twittering”” ， 并 把 它们 开 
放 给 员工 甚至 客户 。 一 家 制药 厂 已 经 热情 地 采用 了 后 两 种 技术 ， 并 在 移动 设备 上 将 它们 与 
SMS 短信 和 集成 。 据 他 们 说 ， 搜 索 “ 信 息 流 ”是 一 个 比 搜索 资源 库 更 迫切 的 需求 。 

第 六 ， 收 集 过 程 可 能 需要 很 长 一 段 时 间 ， 人 也 为 机 构 带 来 额外 的 大 量 电信 资费 。 例 如 : 

场景 1， 一 个 澳大利亚 政府 机 构 在 9 个 省 会 城市 都 有 办 事 处 。 每 个 办 事 处 的 员 

工 在 本 地 共享 文件 系统 上 创建 文档 。 这 个 机 构 希 望 能 够 提供 在 所 有 9 个 文件 系统 上 

的 统一 搜索 ， 但 是 ， 办 事 处 之 间 连 接 的 带宽 在 速度 上 和 拨号 的 调制 解 调 器 相似 。 在 

他 们 的 外 包 合同 下 ， 增 加 带宽 将 产生 显著 的 额外 费用 。 查 询 提 交 率 则 是 低 的 。 

如 在 场景 1 中 的 情况 下 (摘自 一 个 真实 的 案例 )， 考 虑 到 查询 量 ， 频 繁 收集 的 代价 可 能 并 不 
是 合理 的 ， 而 联合 (元 搜索 ) 方法 可 能 是 首选 。 





© http://www. facebook. com/。 
© http: //twitter. com/。 
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在 所 有 的 收集 模式 中 ， 通 过 增 量 式 方法 通常 可 以 大 大 地 提高 效率 。 在 一 个 大 型 的 企业 网 
或 数据 库 中 ， 每 天 变化 的 内 容 可 能 连 1% 都 不 到 。 对 一 个 5000 万 网 页 的 企业 网 ， 每 天 收集 
其 所 有 内 容 可 能 是 不 可 行 的 或 者 不 划算 的 ， 但是， 如 果 不 是 完整 扫描 而 只 是 收集 变化 的 内 
容 ， 则 是 非常 合理 的 。 值 得 注意 的 是 ， 增 量 收集 的 收益 可 能 会 流向 过 滤 和 索引 。 


15.3.2 提取 


JA PDF 和 Office 文档 〈 见 第 6 章 ) 等 二 进 制 文档 中 提取 (或 过 滤 ) 文本 和 元 数据 似乎 
应 该 是 一 个 简单 的 工程 任务 。 在 实践 中 ， 过 滤 问 题 可 能 是 用 户 对 于 企业 搜索 结果 不 满意 的 一 
个 重要 原因 。 这 是 因为 过 滤 失 败 可 能 会 导致 无 意义 的 标题 、 低 质量 的 “缓存 副本 ”和 和 焉 曲 的 
摘要 。 此 外 ， 关 于 某 个 主题 的 关键 文档 其 至 可 能 不 会 被 识别 为 与 查询 匹配 的 。 

为 什么 过 滤 比 看 起 来 要 困难 呢 ? 第 一 个 因素 与 专属 的 文件 格式 有 关 ， 如 6.5 节 讨 论 的 。 
有 些 这 样 的 格式 未 公开 发 布 ， 并 且 是 模糊 的 ， 使 逆向 工程 变 得 困难 。 有 时 ， 随 着 文档 创建 软 
件 每 个 新 版 本 的 出 现 ， 有 些 细节 会 改变 ， 从 而 增加 了 第 三 方 过 滤 开 发 人 员 必 须 支 持 的 不 同 格 
式 的 数目 。OpenOffice 和 微软 Office 的 最 新 版 本 采用 了 压缩 XML 格式 ， 这 对 于 过 滤 的 易 用 
性 和 准确 率 可 能 都 向 前 迈 了 一 大 步 。 

第 二 个 因素 是 ， 当 用 PostScript 或 者 便携 文档 格式 (Portable Document Format, PDF) 
等 面向 显示 的 格式 对 文档 编码 时 ， 文 档 语义 会 损失 。 大 多 数 文档 在 创建 时 是 按照 阅读 顺序 表 
示 的 ， 有 一 些 明确 标记 的 特殊 段落 ， 如 标题 、 主 题 和 表格 。 当 转换 成 PostScript 格式 时 ， 基 
本 的 操作 是 面向 图 形 的 : 例如 “在 当前 坐标 系 中 从 点 Col, yl 到 点 (z2，y2) 画 一 条 宽 
度 为 0. 1 的 灰 线 ”，“ 从 当前 字体 表 中 ， 在 点 (x，y) 打印 第 ”个 字符 ”。 从 图 形 到 文本 空间 
的 道 向 转换 ， 一 般 是 很 困难 、 费 时 和 容易 出 错 的 。 

第 三 个 因素 是 元 数据 的 表示 。 很 多 知名 的 格式 ， 如 MSWord, PDF, OpenDocument 和 
JPEG 能 够 存储 元 数据 ， 如 标题 、 作 者 、 主 题 、 日 期 等 。 然 而 ， 在 实践 中 ， 这 些 元 数据 通常 
是 缺失 的 。 如 果 存 在 ， 通 常 价值 也 比较 低 。 或 许 ， 如 果 内 部 文档 的 作者 能 够 看 到 ， 好 的 标 
题 、 作 者 和 时 间 元 数据 可 以 改善 搜索 能 力 ， 那 么 情况 将 有 所 改善 。 

在 任何 情况 下 ， 许 多 常用 文件 格式 类 型 受 限 于 它们 所 能 记录 的 元 数据 的 类 型 。 这 导致 了 
对 记录 文档 细节 的 外 部 元 数据 资源 库 的 依赖 ， 或 者 ， 导 致 有 些 在 检索 中 可 能 有 用 的 元 数据 的 
BRA 

场景 2， 一 个 机 构 使 用 Microsoft Word 创建 报告 ， 用 于 外 部 Web RA. Ast, 

为 了 使 报告 在 被 所 有 利益 相关 者 阅读 和 打印 时 可 以 保持 分 页 一 致 ， 他 们 将 报告 转换 

为 PDF 格式 。 不 幸 的 是 ， 员 工 很 少 会 在 Word 文档 属性 中 记录 标题 。Word 将 使 用 

默认 的 文件 名 。 当 文档 转换 为 PDF 时 ， 短 语 “Microsoft Word” 被 添加 到 文件 名 ， 

HAGE) PDF 的 元 数据 部 分 ， 然 后 被 搜索 引擎 的 PDF 过 滤器 找到 。 当 一 个 客户 搜 

索 网 站 的 报告 时 ， 所 有 的 结果 都 有 相同 模式 的 标题 : Microsoft Word-fileXX. DOC. 

尽管 它们 实际 上 是 PDF 格式 的 ， 但 很 多 搜索 者 会 认为 结果 可 能 是 近似 重复 的 ， 并 

且 它 们 都 是 Word 格式 的 。 

第 四 个 因素 是 ， 文 本 信息 可 能 会 只 以 扫描 形式 存在 于 文档 中 。 很 多 办 公 室 都 配备 了 复印 
件 / 传 真 机 /扫描 仪 设 备 ， 它 们 扫描 打印 的 文档 ， 将 产生 的 PDF 文档 发 送 到 指定 的 电子 邮件 
地 址 。 从 PDF 文件 中 提取 文本 需要 使 用 OCR 软件 ， 这 增加 了 时 间 和 错误 率 。 第 五 个 因素 涉 
及 文档 内 的 访问 ， 它 可 能 是 以 不 同 模式 压缩 的 ， 也 可 能 会 加 密 。PDF 格式 文档 可 能 在 内 部 
被 标记 ， 禁 止 文本 提取 。 第 六 个 因素 ,文档 内 部 的 重要 结构 可 能 被 排版 惯例 规定 的 很 多 文档 
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类 型 所 表示 。 例 如 : 
场景 3; 一 个 机 构 要 求 员工 简介 必须 按 如 下 排版 :;“ 由 12 厂 Times-bold 的 姓氏 
开始 ， 后 面 跟随 着 12 Æ Times-Roman 的 名 。 下 一 行 包含 就 业 类 别 ， 然 后 是 服务 年 


通过 使 用 抓 取 (scraping〉 技 术 来 在 索引 之 前 重建 逻辑 字段 ， 检 索 系 统 在 根据 场景 3 创 
建 的 数据 上 的 搜索 性 能 有 显著 的 提高 。 不 同 于 Web， 有 理由 预期 单一 机 构 中 只 有 少量 这 种 
类 型 的 协议 。 

过 滤 大 规模 二 进 制 格式 文档 可 能 是 非常 费时 的 。 使 用 增 量 过 滤 ， 只 需要 过 滤 那 些 在 上 次 
更 新 后 才 改 变 的 文档 ， 所 需 的 时 间 通 常 可 以 减少 ， 


15. 3.3 索引 


企业 搜索 工具 使 用 的 索引 格式 没有 理由 与 Web 或 其 他 地 方 不 同 。 倒 排 索引 CH 
[1798]) 常常 使 用 ， 通 过 额外 的 结构 来 表示 文本 注释 〈 见 15. 3.4 节 ) 和 静态 得 分 。 然 而 在 
企业 中 ， 有 一 个 特别 的 需求 一 一 索引 字段 数据 (将 各 种 元 数据 类 型 ， 以 及 元 数据 类 型 和 文档 
内 容 区 分 开 来 ) 。 索 引 系 统 在 对 不 同类 型 数据 的 支持 度 、 索 引 数 据 的 速率 、 高 效 支持 短语 和 
邻近 操作 的 能 力 ， 以 及 所 产生 的 索引 的 压缩 度 等 方面 表现 不 同 。 附 录 A 比较 了 开源 索引 软 
件 在 这 些 方面 的 性 能 。 

在 设计 索引 时 的 一 个 挑战 在 于 如 何 最 好 地 处 理 增 量 式 的 内 容 更 新 。 增 量 索 引 按 如 下 方式 
处 理 更 新 : 新 的 文档 通过 在 文档 表 中 增加 新 的 条 目 ， 以 及 在 它 包 含 的 每 个 索引 项 所 对 应 的 记 
录 列 表 的 最 后 增加 条 目 来 实现 。 这 可 能 会 需要 很 多 随机 存 取 的 AO， 并 且 可 能 会 与 为 了 支持 
高 效 的 、 以 文档 为 单位 的 ‘Document-At-A-Time，DAAT [273, 1046]) 查询 处 理 而 进行 
的 文档 排序 相 冲 突 。 在 记录 列表 末端 也 可 能 没有 空间 来 容纳 新 的 条 目 ， 因 此 需要 释放 当前 列 
表 的 空间 ， 并 在 倒 排 索引 的 尾部 创建 一 个 新 的 列表 。 

从 增 量 索 引 中 删除 文件 会 带 来 更 多 问题 ， 特 别 是 当 记 录 列 表 压 缩 时 。 一 个 典型 的 解决 方 
案 是 将 记录 留 在 原 处 ， 而 将 文档 标记 为 删除 。 文 档 的 更 新 可 以 视 为 先 删除 ， 后 插 和 人。 随 着 时 
间 推 移 ， 增 量 索 引 的 规模 会 显著 扩大 ， 而 访问 速度 会 由 于 碎片 和 局 部 性 的 损失 而 下 降 。 

使 用 增 量 索引 的 另 一 种 方法 是 维护 基本 索引 和 更 新 索引 的 组 合 ， 并 且 并 行 地 对 它们 搜 
索 ， 如 以 下 抽象 出 来 的 场景 ， 

场景 4: 一 个 媒体 机 构 拥 有 一 个 数 百 万 个 文档 的 网 站 。 它 在 每 个 周末 索引 整个 

网 站 来 建立 基本 索引 。 由 于 基本 索引 已 经 建立 ， 所 以 每 天 晚上 对 所 有 在 基本 索引 建 

立 之 后 的 新 内 容 建 立 一 个 更 新 索引 。 将 基本 索引 中 更 新 的 文档 标记 为 “ 杀 死 ”。 每 

隔 20 分 钟 ， 对 网 站 新 闻 部 分 的 内 容 建 索引 。 默 认 情 况 下 ， 在 网 站 上 搜索 ， 需 要 查 

询 的 元 索引 包 侈 三 个 部 分 : 基本 索引 、 更 新 索引 和 新 闻 索 引 。 

可 以 对 这 两 种 更 新 索引 的 方法 进行 很 多 变形 。 例 如 ， 可 以 建立 一 个 超 结构 ， 使 得 基本 索 
引 和 更 新 索引 组 合 起 来 表现 得 像 单个 索引 。 另 外 ， 可 以 提供 一 个 工具 将 基本 索引 和 更 新 索引 
合并 成 为 单一 索引 。 


15.3.4 文本 注释 的 索引 


如 同 在 Web 上， 企业 文档 (包括 非 HTML 文档 ) 可 以 使 用 不 同 的 注释 机 制 ， 通 过 链接 
的 锚 文 本 、 正 式 使 用 的 元 数据 、 伴 随 点 击 的 查询 [721，1743] 和 分 众 分 类 法 标签 [1131]. 
图 15-2 说 明 在 查询 处 理 中 如 何 索 引 注释 。 它 们 可 以 用 来 提供 查询 依赖 和 查询 独立 的 得 分 组 
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合 。 聚 合 注释 可 以 分 开 评 分 ， 之 后 与 文本 得 分 合并 [1225]， 或 者 可 以 将 它们 视 为 原始 文档 
的 字段 [1370]. 





ORRO aR 


— 


注释 索引 
Pac 





<> 


查询 
' 独立 证 据 


图 15-2 支持 有 效 的 企业 搜索 的 注释 过 程 


当然 ， 机 构 在 注释 数据 的 类 型 和 数量 上 有 很 大 的 不 同 。 很 少 有 机 构 支 持 分 众 分 类 法 ， 但 
是 有 些 机 构 用 它们 做 实验 。 澳 大 利 亚 悉 尼 的 PowerHouse 博物 馆 允许 访问 者 到 它们 的 外 部 
网 站 来 对 展品 的 网 页 进行 注释 。 如 [502] 所 报告 的 ， 分 众 分 类 标签 的 实验 已 经 在 IBM 进 
行 ， 但 数据 量 还 很 小 。 


15. 3.5 查询 处 理 

如 15. 5 节 指 出 ， 企 业 检 索 的 查询 常常 因为 查询 语言 与 文档 语言 的 不 同 而 失败 。 企 业 检 
索 系 统 可 能 提供 同义词 典 扩展 、 查 询 建议 、 词 干 提取 和 相关 反馈 等 工具 来 帮助 弥补 这 一 
差距 。 

如 在 Web 检索 中 ， 通 过 将 文本 产生 的 得 分 与 静态 得 分 相 结合 可 以 在 企业 内 部 得 到 更 有 
效 的 排序 。 静 态 得 分 公式 可 能 需要 根据 特定 发 布 环 境 的 特点 调整 。 例 如 ， 在 某 些 机 构 中 ， 链 
接 数 和 URL 长 度 可 能 与 答案 是 否 有 用 不 相关 。 而 且 ， 在 企业 内 部 ， 可 能 没有 相互 链接 ， 且 
静态 得 分 可 能 需要 考虑 新 的 因素 ， 例 如 : 

。 对 资源 的 访问 频率 。 

。 发 布 的 新 鲜 度 。 

。 电子 邮件 的 垃圾 评分 。 

。 文件 类 别 或 流派 (对 于 所 有 的 查询 ， 有 些 文档 类 别 或 流派 往往 比 其 他 的 更 有 用 )。 

。 资源 库 〈 相 比 于 电子 邮件 归档 中 得 到 的 结果 ， 可 能 偏向 于 从 员工 数据 库 中 得 到 的 

结果 )。 

在 图 书馆 或 者 电子 商务 网 站 中 ， 静 态 得 分 可 能 考虑 某 个 项 目 被 借 出 或 购买 的 次 数 。 此 
外 ， 发 布 者 的 收益 “例如 项 目的 利润 率 、 商 品 的 易 腐 烂 性 和 库存 量 〉 可 能 也 在 决定 得 分 时 被 
考虑 。 











© http://www. powerhousemuseum. com/。 
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与 查询 独立 的 因素 对 于 更 态 得 分 的 相对 价值 可 能 在 不 同 机 构 间 有 很 大 的 不 同 : 发 布 日 期 
在 很 多 机 构 中 可 能 是 可 靠 的 ， 在 男 一 些 机 构 中 则 不 是 ; 如 果 URL 是 通过 内 容 管理 系统 以 固 
定格 式 GHA ERE EA) 产生 的 ， 则 URL 特征 的 价值 在 机 构 中 就 严重 缩水 了 ; 如 果 成 
干 上 万 的 链接 指向 同一 个 页 面 ， 这 通常 表示 了 它 的 重要 性 和 流行 性 ， 但 如 果 这 些 链 接 由 一 个 
人 创建 ， 从 单一 的 导航 模板 产生 ， 那 么 情况 就 不 是 这 样 了 。 

最 优 的 搜索 排序 必须 抑制 近似 重复 结果 的 出 现 ， 豆 励 多样 性 ， 以 减少 可 能 存在 的 Office 
文档 的 多 个 草稿 和 版 本 、 销 售 资料 的 多 种 表示 形式 、 在 文件 共享 和 电子 邮件 附件 中 的 相同 文 
档 ， 以 及 多 个 URL 发 布 相同 资料 的 普遍 问题 。 请 注意 ， 一 般 不 宜 在 收集 或 索引 中 消除 近似 
重复 。 否则 ， 限 定 信息 资源 子 集 的 检索 可 能 会 失败 ， 因 为 所 需 文件 的 唯一 副本 由 于 在 其 他 范 
围 有 近似 重复 的 文档 而 被 删除 了 。 

当 试 图 提供 “单一 搜索 框 ” 玉 访问 机 构 的 所 有 信息 资源 时 ， 蜡 质 性 是 排序 困难 的 主要 原 
因 。 对 机 构 的 Web 文档 进行 打分 可 能 使 用 一 些 因素 ， 如 URL 结构 和 长 度 、 链 接 数 和 销 文 
本 。 而 电子 有 邮件、 员工 数据 库 、CRM 系统 或 记录 管理 系统 (Record Management System, 
RMS) 则 不 存在 这 些 因素 。 在 这 种 情况 下 ， 是 否 可 能 自动 地 产生 统一 的 排序 ， 使 得 它 在 网 
页 内 容 排 序 方面 表现 很 好 ， 并 且 对 于 其 他 内 容 没 有 很 强 的 支持 或 者 反对 的 偏见 ?也 许 不 同类 
型 的 表示 更 合适 。 

企业 范围 内 的 检索 系统 的 优化 调整 以 及 结果 表示 的 最 佳 方 式 ， 在 不 同 的 个 体 和 不 同 群 体 
的 员工 间 可 能 有 很 大 差别 。 读 者 可 以 参考 15. 6 节 关 于 这 个 主题 的 讨论 。 


15. 3.6 搜索 结果 的 展示 


在 很 多 情况 下 ， 搜 索 结 果 的 来 源 或 类 型 可 以 帮助 搜索 用 户 决定 这 个 结果 有 多 有 用 。 统 一 
排序 的 结果 中 可 能 包括 表示 来 源 或 文档 类 型 的 图 标 ， 或 者 表示 产品 和 员工 简介 的 缩 略 图 。 另 
外 ， 搜 索 结果 列表 可 能 按照 来 源 或 类 型 分 段 。 例 如 ， 来 自 员工 目录 的 结果 可 能 显示 在 来 自 企 
业 网 结果 的 上 面 ， 而 企业 网 结果 显示 在 外 部 Web 结果 的 上 面 。 常 常会 看 到 ， 在 机 构 内 部 把 
搜索 范围 限制 在 综合 索引 内 的 一 个 明确 定义 的 文档 子 集中 。 例 如 ， 人 力 资源 部 门 的 企业 网 搜 
索 框 可 能 只 允许 来 自 该 网 站 的 URL 搜索 结果 。 同 样 ， 机 构 可 以 提供 其 他 搜索 界面 ， 用 于 单 
独 搜索 员工 目录 、 政 策 和 程序 ， 或 者 员工 公告 。 

在 某 些 情况 下 ， 文 档 不 是 按照 与 查询 的 相关 性 的 降序 排序 ， 或 者 向 用 户 提供 搜索 排序 选 
项 ， 而 是 按照 某 个 合理 的 顺序 显示 结果 :电子 邮件 搜索 结果 可 以 按照 日 期 顺序 排序 ,最近 的 
排 在 首位 ;出 版 物 可 以 首先 按照 文件 类 型 排序 ， 然 后 按照 标题 的 字典 序 排序 。 最 后 ， 对 于 一 
个 旅馆 查找 门户 来 说 ， 可 能 需要 一 定 的 随机 性 ， 来 避免 某 个 区 域 中 的 一 两 家 旅馆 有 极 大 的 商 
业 优 势 ， 而 其 他 旅馆 相应 变 得 极为 不 利 。 类 似 的 考虑 可 能 在 一 些 专 家 发 现 应 用 中 开始 发 挥 
作用 。 

企业 搜索 工具 可 以 提供 一 系列 额外 的 功能 来 帮助 员工 或 网 站 访问 者 在 搜索 时 得 到 最 大 的 
价值 。 这 些 功能 包括 聚 类 、 元 数据 分 面 统计 CLA 15-3 中 的 地 点 、 年 份 和 格式 分 面 ， 见 
[738] 中 的 聚 类 和 分 面 的 比较 )、 多 文档 摘要 、 拼 写 建议 和 关联 查询 。 企 业 搜索 系统 可 能 也 
包括 一 些 工 具 ， 对 结果 集 进 行 深层 次 分 析 ， 提 取 常 见 的 实体 ， 如 人 和 人 名、 地 名 和 机 构 名 、 电 子 
邮件 地 址 、 电 话 号 码 ， 或 者 输入 查询 的 超 短 语 等 。 搜 索 结果 可 显示 在 地 图 环境 中 〈 提 供 在 被 
选 结果 附近 搜索 带 标签 文档 的 功能 ) 。 如 同 在 Web 上 ， 对 于 图 像 和 产品 的 企业 搜索 结果 应 该 
包括 缩 略 图 功能 。 同 样 ， 对 于 视频 片段 的 结果 应 该 包括 关键 帧 的 缩 略 图 。 此 外 ， 用 户 可 以 注 
册 兴 趣 轮 廓 来 通过 RSS 或 电子 邮件 激活 自动 提醒 。 
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15-3 ”截图 显示 了 在 异 质 资源 集 上 的 企业 搜索 。 注 意 员工 电话 簿 结果 中 的 图 
像 、PDF 指示 符 和 截图 左边 的 链接 ， 它 们 允许 搜索 范围 缩小 到 特定 
的 资源 库 、 特 定 的 年 份 或 特定 的 格式 。 还 要 注意 到 ， 引 擎 为 用 户 提供 
了 对 获得 的 结果 进行 相关 反馈 的 功能 。Oxfam Australia 友善 地 许可 
了 截图 的 使 用 


将 搜索 整合 到 企业 应 用 中 ， 并 且 在 应 用 的 环境 中 以 相应 的 格式 展示 结果 ， 通 常 是 有 道理 
的 。 例 如 ， 电 子 邮 件 搜索 结果 可 以 作为 虚拟 的 电子 邮件 文件 夹 ， 支 持 所 有 常见 的 文件 夹 操 
作 。 另 一 个 例子 是 ， 可 以 配置 文档 处 理应 用 程序 ， 使 之 不 断 地 对 最 近 添 加 到 文档 中 的 那 部 分 
文本 进行 搜索 ， 并 且 所 采用 的 搜索 结果 格式 便于 加 入 引用 、 摘 引 或 者 纳入 正在 处 理 的 文档 。 

最 后 ， 企 业 搜索 工具 可 以 在 由 一 些 机 构 运 营 的 定制 员工 界面 中 发 挥 关 键 的 作用 ， 如 
Manber 等 人 [1076] 介绍 的 My Yahoo! 门户 和 Yahoo! Companion 工具 栏 。 门户 网 站 页 
面 可 以 按照 个 体 需 求 定 制 ， 这 样 的 想法 在 机 构 中 和 在 Web 上 一 样 适用 。 定 制 的 门户 网 页 可 
以 提供 提醒 、 特 定员 工 所 需要 了 解 事情 的 针对 性 摘要 、 活 动 链接 和 个 性 化 搜索 功能 。 在 后 
台 ， 搜 索 工 具 可 以 提供 提醒 和 RS 源 ， 当 然 还 有 量 身 定 做 、 限 定 范围 的 搜索 〈 如 何 对 搜索 
进行 个 性 化 处 理 的 细节 见 15. 6 节 )。Manber 等 人 介绍 了 许多 从 应 用 于 企业 内 部 的 My Ya- 
hool 学 习 到 的 经 验 教 训 。 他 们 强调 用 户 界面 设计 的 重要 ， 并 坚持 界面 行为 必须 是 用 户 能 预 
测 的 。 他 们 警告 说 ， 人 们 通常 不 理解 定制 化 的 概念 ， 并 且 大 多 数 用 户 不 采用 定制 ， 所 以 应 该 
投入 很 大 的 努力 来 优化 界面 的 普遍 版 本 。 


15.3.7 安全 模型 


为 了 给 授权 用 户 提 供 全 面 的 搜索 ， 企 业 搜索 工具 必须 有 访问 机 构 所 有 信息 资源 的 万 能 权 
限 。 因 此 ， 工 具 必 须 百 分 之 百 地 保证 信息 安全 。 由 于 安全 模型 的 复杂 性 以 及 需要 保持 准确 、 
高 效 的 搜索 ， 因 此 需要 很 多 赣 慎 的 工程 化 工作 。 查 看 文档 或 者 搜索 结果 的 权限 取决 于 登录 的 
HP (也 包括 搜索 用 户 是 否 登 录 ) 。 企 业 搜 索 工具 的 使 用 可 能 产生 一 些 威胁 ， 包括: 

D 当 内 部 的 候 忠 访问 一 个 活跃 的 服务 器 页 面 或 者 CGI 脚本 时 ， 会 执行 一 些 并 非 有 意 而 
为 的 动作 。 例 如 ， 一 所 大 学 的 系统 管理 员 给 作者 提供 了 delete-page. cgi 功能 ， 使 他 们 可 以 通 
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过 简单 的 浏览 器 请 求 来 删除 另 一 个 网 页 。 他 们 利用 这 个 功能 先 删 除 网 页 ， 之 后 再 进行 编辑 和 
修复 。 不 幸 的 是 ， 当 他 们 访问 delete-page. cgi 时， 在线 Web 服务 器 访问 日 志 记 录 了 这 次 访 
问 ， 日 志 中 包括 指向 所 有 访问 过 的 页 面 的 链接 。 当 疏 虫 下 次 扫描 网 站 时 ， 它 会 发 现 Web 日 
志 页 面 ， 然 后 跟随 其 中 的 链接 ， 导 致 那个 新 版 本 的 网 页 被 删除 ! 

2) 使 人 们 能 够 通过 搜索 引擎 看 到 那些 禁止 直接 访问 的 内 容 。 

D 妨碍 人 们 通过 搜索 引擎 来 访问 内 容 ， 虽 然 他 们 有 直接 访问 的 授权 。 

4) 提供 途径 ， 使 恶意 的 非 授权 用 户 能 推 斯 出 敏感 文档 的 存在 ， 并 可 能 推断 出 文档 的 内 
容 。 这 方面 最 极端 的 例子 是 ， 虽 然 实际 文档 的 链接 被 阻止 了 ， 但 还 是 显示 了 搜索 结果 。 不 可 
访问 内 容 的 潜在 信息 来 源 包括 命中 数 、 分 面 数 、 多 文档 摘要 、 文 档 聚 类 ， 甚 至 响应 时 间 。 

5) 外 部 可 访问 的 企业 网 站 搜索 很 可 能 受到 跨 站 脚本 、JavaScript 和 其 他 类 型 的 注入 和 
缓冲 区 溢出 的 攻击 。 

对 机 构 文 档 的 访问 通常 受 一 些 机 制 控 制 ， 如 访问 控制 列表 (ACL)， 可 以 指定 一 系列 行 
为 中 的 哪些 〈 例 如 ， 读 、 写 、 索 引 ) 可 以 提供 给 特定 的 个 人 或 组 。 文 件 夹 或 目录 也 受 ACL 
控制 。 计 算 一 个 特定 的 用 户 是 否 可 以 访问 一 个 特定 的 文档 会 很 复杂 ， 首 先 需要 对 用 户 身 份 进 
行 检验 ， 确 定 他 们 的 成 员 组 ， 以 及 根据 父 文件 夹 的 ACL 和 文档 本 身 的 ACL 链 来 检查 他 们 个 
人 与 组 的 访问 权限 。 机 构 可 能 会 使 用 Kerberos® 等 网 络 身份 验证 协议 ， 并 为 企业 实现 一 个 单 
点 登录 系统 ， 避 免 用 户 对 所 使 用 的 每 个 不 同 的 企业 应 用 都 必须 证 明 自 己 的 身份 。 

从 安全 角度 看 ， 电 子 邮 件 和 其 他 文档 有 些 很 有 趣 的 不 同 点 。 电 子 邮 件 的 作者 (发 件 人 ) 
指定 了 接收 者 列表 ， 但 在 大 多 数 系 统 中 不 能 为 消息 指定 访问 控制 列表 。 相 反 地 ， 消 息 的 副本 
可 能 存储 在 接收 者 自己 的 文件 系统 的 文件 夹 中 ,或 者 存储 在 中 央 邮 件数 据 库 中 。 消 息 的 访问 
控制 由 接收 者 或 者 接收 者 邮件 数据 库 的 管理 员 所 决定 。 因 此 邮件 消息 附件 文档 的 最 终 访问 权 
限 可 能 与 原来 的 很 不 一 样 。 访 问 控制 只 可 能 在 文件 夹 级 别 ， 而 不 是 基于 每 条 消息 。 

1. 文档 集 级 的 安全 

在 理想 情况 下 (从 简单 性 和 效率 的 角度 来 看 )， 机 构 的 信息 资源 可 以 简单 地 分 为 拥有 统 
一 访问 权限 的 多 个 文档 集 。 例 如 : 一 般 访 问 文档 集 、 财 务 文档 集 、 高 级 管理 文档 集 、 人 力 资 
源 文档 集 。 员 工 的 搜索 在 符合 它们 角色 的 子 集 上 处 理 ， 当 提交 结果 时 ， 不 需要 对 每 一 个 文档 
进行 测试 。 不 幸 的 是 ， 在 大 多 数 情 况 下 ， 适 用 的 安全 模型 都 比 这 更 复杂 。 

2. 文档 级 的 安全 

当 文 档 集 级 的 安全 模型 不 适合 或 者 不 能 采用 时 ， 访 问 控制 必须 在 文档 级 上 应 用 。 在 后 
台 ， 用 户 提交 的 查询 在 所 有 的 文档 上 生成 一 个 内 部 排序 结果 ， 然后 必须 过 滤 每 个 结果 ， 
排除 所 有 用 户 不 能 访问 的 所 有 文档 ， 以 避免 威胁 2 和 威胁 3。 为 了 解决 威胁 4， 其 他 所 有 
搜索 结果 应 该 完全 禁止 。 运 营 在 安全 环境 中 的 搜索 工具 不 应 该 显示 当前 用 户 无 权 查看 的 
文档 的 结果 片段 (虽然 简短 )， 被 排除 的 文档 也 不 应 该 以 任何 统计 或 结果 集 分 析 的 形式 呈 
现 给 用 户 。 

不 同 的 机 构 对 安全 限制 有 不 同 的 需求 ， 需 要 在 搜索 时 实施 。 在 最 极端 的 情况 下 ， 机 构 可 
能 坚持 当前 的 访问 控制 应 该 在 搜索 执行 的 那 一 刻 在 文档 级 实施 ， 称 为 晚期 绑 定 。 如 果 在 某 天 
下 午 5 点 ， 员 工 的 角色 发 生 了 改变 ， 那 么 在 当天 下 午 5 点 零 1 分 时 ， 他 们 应 该 只 可 以 看 到 所 
有 符合 他 们 新 角色 的 文档 。 

Bailey 等 人 [127] 说 明了 这 个 极端 模型 对 于 搜索 响应 时 间 的 不 利 影响 ， 这 些 影 响 由 在 





© http: //Web. mit. edu/Kerberos/。 


657 


659 


482 + 第 15 章 企业 搜索 


大 规模 结果 集中 对 每 个 文档 检查 访问 权限 而 引起 ， 特 别 是 当 原 始 文档 存储 在 非 本 地 的 网 络 域 
时 。 如 果 人 允许 搜索 引擎 缓存 所 索引 的 文档 的 访问 控制 数据 ， 那 么 就 会 减少 一 些 延迟 。 在 这 个 
早期 绑 定 模型 中 ， 角 色 转 变 的 员工 ， 在 角色 改变 后 的 一 段 时 期 ， 继 续 访 问 的 可 能 是 符合 他 们 
之 前 角色 的 文档 ， 要 等 一 段 时 间 才 能 对 他 们 刚 有 资格 查看 的 文档 进行 搜索 。 


15.3.8 联合 /元 搜索 


当 为 机 构 内 部 的 所 有 的 信息 源 〈 库 ) 建立 一 个 统一 的 搜索 时 ， 企 业 搜索 引擎 对 所 有 信息 
源 都 进行 收集 、 提 取 和 索引 有 时 是 不 可 行 的。 例如 ， 从 某 些 信息 源 进行 收集 处 理 是 非常 慢 
的 ， 网 络 流量 也 非常 昂贵 或 缓慢 ， 或 者 数据 量 过 大 。 这 样 的 挑战 也 会 在 Web WR ik zB 
[99]j]。 另 外 ， 数 据 可 能 被 锁定 在 一 个 没有 提供 输出 功能 的 专 有 应 用 程序 中 。 (是 的 ， 真 的 1) 
如 果 有 问题 的 信息 源 提供 自己 的 搜索 功能 ， 那 么 仍然 有 可 能 提供 一 个 统一 的 搜索 ， 这 个 方法 
在 不 同情 况 下 称 为 “搜索 联合 ”、“ 元 搜索 ”或 “分 布 式 信 息 检 索 ”。 对 于 联合 搜索 的 更 多 细 
节 在 10. 7 节 的 分 布 式 Web 检索 和 11. 10.3 HA Web 元 搜索 中 介绍 。 

如 果 员 工 希 望 自己 的 统一 搜索 界面 包括 自己 的 个 人 (桌面 ) 信息 和 机 构 外 部 资源 ， 那 么 
元 搜索 是 唯一 可 行 的 解决 方法 [1580j。 在 元 搜索 中 ， 查 询 由 代理 程序 接收 ， 转 发 给 联合 资 
源 的 搜索 界面 。 然 后 ， 代 理 程 序 将 单独 的 结果 结合 成 单一 集合 返回 给 用 户 。 在 这 个 领域 的 先 
驱 工 作 是 由 Gravano 等 人 [667]、Voorhees 等 人 [1653] 和 Callan 等 人 [323] 进行 的 。 由 
于 不 同 搜索 界面 返回 的 排序 和 得 分 可 能 非常 不 兼容 ， 因 此 产生 了 某 些 困难 。 一 个 信息 源 中 排 
名 最 高 的 文档 可 能 比 另 一 个 信息 源 中 排 在 第 50 名 的 文档 匹配 得 更 差 ， 而 那个 排 在 第 50 名 的 
文档 可 能 更 面向 主题 。 在 最 简单 的 情况 下 ， 这 是 由 于 某 些 项 的 DFA 〈 见 第 3 章 ) 在 不 同 
的 信息 源 中 可 能 有 较 大 的 不 同 。 在 更 复杂 的 情况 下 ， 得 分 变化 可 能 是 由 于 不 同 的 静态 权重 或 
者 注释 得 分 。 

联合 搜索 对 于 维持 文档 级 安全 可 能 会 带 来 某 些 特别 的 问题 。 用 户 凭据 必须 由 代理 程序 转 
发 给 单一 的 搜索 服务 ， 只 有 依赖 于 这 个 过 程 才 能 正确 地 实施 搜索 。 在 所 有 要 整合 的 信息 源 间 
提供 可 靠 的 单 点 登录 机 制 几乎 是 不 可 或 缺 的 。 

元 搜索 的 5 个 子 问题 

在 元 搜索 应 用 中 通常 需要 解决 5 个 问题 ， 

D 在 服务 定义 时 ， 识 别 和 选择 要 进行 联合 的 信息 源 。 这 可 能 是 一 本 知名 信息 源 列表 的 
简单 手册 ， 或 者 它 可 能 通过 扫描 来 自动 识别 搜索 界面 L424]. 

2) 在 服务 定义 时 ， 以 及 在 服务 操作 期 间 尽 可 能 经 常 地 刻画 信息 源 一 一 它们 索引 多 少 文 
档 ? 被 索引 文档 的 语言 模型 是 什么 ? 使 用 的 排序 算法 的 效果 如 何 ? 

3) 在 查询 时 ， 要 选择 包括 在 搜索 中 的 可 用 信息 源 的 子 集 。 有 些 证 据 表 明 最 优 的 信息 源 
选择 能 够 超过 在 所 有 信息 源 上 进行 的 搜索 ， 但 是 在 实践 中 却 很 少 或 者 从 未 完成 。 然 而 ， 信 息 
源 选择 可 以 减少 网 络 流量 的 花费 、 数 据 库 订阅 费用 或 每 次 查询 的 费用 (这 可 能 适用 于 特定 的 
外 部 来 源 ) 。 在 一 般 情况 下 ， 选 择 依赖 于 在 刻画 过 程 中 建立 的 信息 源 模 型 。 

4) 将 查询 翻译 成 被 每 一 个 联合 信息 源 接受 的 查询 语言 。 

5) 在 查询 时 ， 对 每 一 个 信息 源 中 返回 的 搜索 结果 进行 合并 。 

对 于 问题 2、 问 题 3 和 问题 5， 已 经 有 大 量 研 究 在 进行 。 问 题 1 相对 较 少 有 人 研究 ， 因 
为 要 联合 的 信息 源 通 常 是 给 定 的 。 问 题 4 很 少 被 关注 ， 因 为 它 通常 是 琐碎 的 或 者 难 解决 
的 一 一 当 搜 索引 擎 在 不 同 的 语义 模型 上 操作 ， 或 者 支持 不 同 的 操作 符 集合 时 ， 准 确 的 翻译 是 
不 可 能 的 。 例 如 ， 不 可 能 把 一 个 包含 否定 、 合 取 和 析 取 的 布尔 查询 忠实 地 表现 为 词 袋 (bag 
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of words) 形式 。 对 于 不 支持 截断 操作 符 〈 通 配 符 ) 或 正则 表达 式 的 系统 ， 也 无 法 近似 
表示 。 

不 幸 的 是 ， 在 大 多 数 分 布 式 信息 检索 的 工作 中 ， 通 过 将 TREC 会 议 的 随机 检索 数据 划 
分 为 多 个 信息 源 的 方式 来 进行 模拟 评价 。 这 些 划分 在 文档 和 文档 集 的 类 型 和 规模 的 变化 方面 
比 联 合 企 业 资源 库 要 少 得 多 ， 并 且 缺 少 文档 类 型 或 者 人 机 交互 数据 等 信息 类 别 ， 而 这 些 可 能 
在 企业 联合 中 很 有 用 。 

需要 联合 的 信息 源 可 能 以 各 种 方式 与 代理 程序 合作 。 例 如 ， 它 们 可 能 提供 关于 文档 集 大 
小 和 文档 频率 的 准确 的 统计 信息 。 然 而 ， 在 一 般 情 况 下 ， 在 企业 或 者 个 人 元 搜索 应 用 中 ， 要 
联合 的 信息 源 不 会 与 代理 合作 。 在 不 合作 的 情况 下 ， 就 需要 通过 搜索 界面 从 文档 中 抽样 来 刻 
画 服 务 器 。Callan 等 人 [321] 提出 了 一 种 似乎 十 分 随机 的 采样 方法 ， 但 它 的 效果 相当 不 错 。 
接 下 来 ，Bar-Yossef 和 Gurevich [135] 的 工作 采用 了 更 加 原则 性 的 、 基 于 双重 拒绝 采样 的 
方法 来 避免 采样 偏 置 。 为 了 表示 在 个 人 元 搜索 工具 中 哪些 文档 集 可 能 会 联合 ，Thomas 和 
Hawking [1582] 在 一 系列 不 同 的 文档 集中 评价 了 4 种 采样 方法 。Bar-Yossef 和 Gurevich 
的 随机 游 走 方法 发 现 好 于 其 他 可 选 方案 ， 但 是 会 带 来 相对 高 的 成 本 。Thomas 和 Hawking 
提出 了 一 个 更 高 效 的 多 重 查询 采样 方法 ， 取 得 了 类 似 的 精度 。 

多 重 查 询 采 样 提交 一 些 高 召回 率 的 查询 ， 它 们 从 文档 集 独立 产生 的 数据 池 中 采样 而 来 ， 
然后 请 求 个 结果 。 根 据 搜索 引擎 的 实际 情况 ,，& 尽 可 能 高 。 它 从 结果 集 的 并 集中 采样 文 
档 。 末 产生 任何 结果 的 查询 Chi) 和 那些 产生 多 于 个 结果 的 查询 ( 滋 出 ) 被 拒绝 。 使 用 
结果 集 的 并 集 往 往 有 助 于 减轻 查询 偏 置 问题 (很 多 查询 倾向 于 返回 那些 含有 丰富 索引 项 的 长 
文档 ) 。 拒 绝 溢出 查询 避免 了 排序 偏 置 〈 静 态 分 数 高 的 文档 被 采样 的 概率 会 增加 ) ， 而 选择 一 
个 大 的 & 值 则 能 减少 拒绝 的 可 能 性 。 

通过 搜索 界面 来 估计 文档 集 的 大 小 ， 通 常 依 赖 于 那些 为 估算 鱼 类 或 动物 种 群 而 开发 的 方 
法 。 文 档 通过 类 似 上 面 描述 的 方法 来 采样 和 重 采 样 ， 而 不 是 诱捕 和 释放 动物 。 在 简单 的 抓 
捕 -再 抓 捕 方 法 中 ， 两 个 独立 的 、 无 偏 置 的 采样 中 ， 相 同文 档 的 数量 可 以 用 来 估计 种 群 的 个 
数 。Shokouhi 等 人 [1473] 描述 了 在 这 个 领域 的 新 方法 。 

现在 已 发 布 的 关于 信息 源 选择 的 方法 已 经 超过 40 个 ! 有 些 依赖 于 通过 STARTS 等 探查 
协议 [665] 从 信息 源 获得 信息 。 其 他 方法 假设 项 频数 据 可 用 ， 而 另外 一 些 则 假设 没有 合作 。 
Callan 等 人 提出 的 、 著 名 的 CORI 方法 [323] 将 每 一 个 文档 集 看 做 一 篇 文档 ， 将 文档 集 的 
集合 看 做 文档 集 ， 使 用 标准 的 相关 度 计算 作为 选择 的 基础 。 在 不 合作 的 情况 下 ， 其 类 似 于 
TF AM IDF ( 见 第 3 章 ) 的 信息 必须 从 样本 中 估计 。 选 择 方法 还 可 以 考虑 检索 系统 工作 在 每 
个 信息 源 上 的 效率 ， 因 为 如 果 它 们 不 能 及 时 响应 查询 ， 那 么 选择 能 得 到 好 答案 的 服务 器 也 会 
带 来 负面 效果 [437]. 

如 果 没 有 提 及 Fuhr [600] 提出 的 决策 理论 框架 ， 那么 这 一 主题 的 讨论 将 是 不 完整 的 。 
这 个 理论 使 用 检索 相关 和 不 相关 文档 的 代价 、 期 望 的 检索 质量 、 每 个 信息 源 中 相关 文档 的 期 
望 数量 ， 以 及 文档 传输 和 查询 处 理 的 开销 ， 得 到 对 每 个 信息 源 请 求 多 少 文档 〈 可 能 没有 的 
最 优 决 策 。 如 前 所 述 ， 对 企业 信息 源 联 合 环 境 中 选择 方法 的 研究 比较 其 乏 。 感 觉 在 这 种 环境 
下 ， 如 果 尝 试 将 保存 在 特定 资源 库 里 的 文档 类 型 (如 电子 邮件 消息 、 日 历 项 、 联 系 人 详细 信 
息 、 服 务 历史 ， 技 术 手 册 等 ) 与 查询 背后 的 任务 相 匹 配 ， 有 可 能 找到 更 好 的 方法 。 

与 选择 一 样 ， 也 出 现 了 很 多 合并 结果 的 方法 。Lawrence 和 Giles [987] 提出 一 个 有 效 
的 合并 方法 ， 下 载 初步 结果 列表 中 的 所 有 文档 并 在 本 地 进行 相关 性 排序 。 这 个 方法 在 Web 
上 的 缺点 是 对 于 每 个 查询 产生 的 网 络 流量 和 完成 结果 列表 合并 的 延迟 。 在 企业 中 ， 这 些 问题 


484 。 第 15 章 企业 搜索 


可 能 是 可 挖 的， 但 可 能 会 出 现 其 他 的 困难 。 例 如 ， 排 序 异 质 文档 类 型 可 能 会 造成 困难 ， 甚 至 
更 重要 的 是 ， 专 有 应 用 程序 可 能 无 法 输出 完整 的 文档 。Rasolofo 等 人 [1335] 提出 并 评估 了 
在 当前 新 闻 元 搜索 情况 下 合并 结果 的 策略 ， 其 中 信息 源 在 所 提供 的 每 个 搜索 结果 “片段 ”的 
类 型 和 数量 方面 有 很 大 的 不 同 。 他 们 能 够 获得 来 自 于 片段 的 结果 ， 其 效果 接近 于 通过 下 载 和 
本 地 索引 完整 文档 而 获得 的 效果 。 

元 搜索 结果 的 展示 在 异 质 环境 中 非常 重要 。 不 同类 型 的 结果 ， 如 图 像 、 客 户 联系 信息 和 
企业 政策 可 能 需要 通过 不 同方 式 展示 。 此 外 ， 明 确 地 告知 每 个 结果 的 信息 源 也 是 有 价值 的 。 
一 种 避免 合并 问题 的 方式 是 避免 合并 在 一 起 ， 即 对 于 不 同 的 信息 源 ， 以 单独 的 栏 来 展示 结果 

[661] 列表 ， 就 像 几 年 前 A99 多 信息 源 搜索 引擎 的 突出 表现 。 另 一 种 方法 是 在 按 信息 源 分 段 的 列 
表 中 展示 结果 。 尽 管 图 15-4 所 示 的 结果 列表 分 段 实际 上 并 不 对 应 于 单独 的 信息 源 ， 但 它们 
可 以 这 样 做 。 另 一 个 分 段 列 表 的 例子 出 现在 苏格兰 护理 监管 委员 会 (Scottish Commission 
for the Regulation of Care) ， 它 们 提供 给 检测 员 一 个 移动 搜索 界面 ， 允 许 他 们 同时 搜索 多 个 
数据 库 ， 并 带 有 查询 预测 功能 。 当 输入 查询 的 前 3 个 字母 后 ， 数 据 库 中 匹配 这 个 前 级 的 结果 
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图 15-4 分 段 结 果 列 表 的 展示 形式 ， 这 种 设计 方便 不 同类 别 的 访问 者 访问 网 站 。 
搜索 用 户 可 以 点 击 链接 来 扩展 某 一 特定 类 别 的 结果 。 这 是 来 自 国家 处 方 
服务 部 (National Prescribing Service) 的 截图 


15. 4 ”企业 搜索 评价 
企业 搜索 评价 可 能 是 为 了 科学 研究 、 产 品 测试 或 者 公司 的 内 部 目的 。 


15.4.1 企业 搜索 的 公开 测试 集 


机 构 之 间 信 息 存储 的 巨大 差异 ， 以 及 大 多 数 企 业 信息 包含 着 机 密 ， 这 些 都 使 得 很 难 建 立 
用 来 调试 和 比较 搜索 工具 的 测试 集 。 有 时 ， 由 于 破产 而 使 一 个 公司 的 全 套数 据 可 为 公司 外 部 
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所 用 。 安 然 〈Enron) 公司 是 一 个 众所周知 的 例子 ， 虽 然 有 些 研究 人 员 对 于 将 它 用 于 研究 有 
一 些 道 德 上 的 顾虑 ， 但 是 实际 上 很 多 研究 还 是 基于 Enron 电子 邮件 语料库 。 

不 幸 的 是 ， 对 完整 数据 的 访问 只 部 分 解决 了 建立 测试 集 的 问题 。 此 外 ， 我 们 还 需要 了 
解 ， 在 公司 正常 的 运营 中 会 从 事 什么 样 的 搜索 类 型 ， 会 提出 什么 样 的 查询 ， 返 回 的 结果 会 有 
怎样 的 价值 。 在 一 般 情况 下 ， 可 能 很 难 去 联系 破产 公司 的 前 员工 并 且 劝 说 他 们 分 享 信息 需求 
和 判断 。 

即使 科学 家 被 授权 来 复制 一 个 机 构 所 有 的 数据 ， 并 且 对 员工 的 搜索 行为 进行 研究 (他们 
搜索 什么 和 他 们 选择 哪个 搜索 结果 )， 但 是 我 们 怎么 可 以 确定 这 个 机 构 可 以 代表 其 他 的 机 构 。 
我 们 怎样 可 以 有 信心 ， 在 这 个 公司 数据 上 最 好 的 搜索 引擎 在 其 他 公司 完全 不 同 的 数据 上 也 会 
表现 得 一 样 好 。 

TREC 会 议 的 企业 搜索 任务 

据 我 们 所 知 ， 对 于 企业 搜索 评价 唯一 公开 可 用 的 文档 集 (语料库 十 查询 十 判断 ) 是 
TREC 会 议 企业 搜索 任务 建立 的 。 由 于 前 面 提 到 的 问题 ， 企 业 搜索 语料库 仅 包 含 在 外 部 网 站 
上 公开 的 资料 一 一 w3c. org 的 息 取 结果 、w3c. org 的 邮件 列表 (转换 为 网 页 )、 在 15, 2 节 中 
提 到 的 csiro. au 的 息 取 结果 。 有 兴趣 的 读者 可 以 参考 在 TREC 会 议 网 站 ?上 发 表 的 任务 综述 
(例如 [126，439]) 和 第 4 章 。 


15.4.2 企业 搜索 内 部 评价 


需要 对 企业 搜索 工具 的 效率 进行 实际 评价 的 原因 如 下 : 
。 搜索 引擎 公司 研发 改善 算法 ， 并 为 排序 函数 中 的 系数 选择 好 的 默认 值 。 这 种 研发 需 
要 在 代表 不 同 企业 搜索 环境 的 大 规模 测试 集 上 进行 。 
。 产品 的 比较 带 来 购买 决策 。 
。 在 某 个 特定 的 环境 中 ， 调 试 一 个 现 有 的 系统 来 使 它 更 好 地 工作 。 这 种 调试 可 能 ， 
。 通过 提高 公众 查询 比例 来 降低 成 本 。 这 些 查询 可 以 通过 Web 来 处 理 ， 而 不 需要 
昂贵 的 电话 费用 ， 或 者 面对面 的 支持 。 
。 提高 员工 的 生产 力 〈 例 如 : 通过 避免 在 重建 已 有 信息 上 花费 精力 )》 和 公司 的 竞 
争 力 。 
。 增加 销量 ， 通 过 确保 潜在 的 客户 可 以 很 容易 地 找到 产品 和 服务 信息 ， 并 可 以 找到 
最 便捷 的 购买 方式 〈 无 论 是 在 Web 上 或 者 通过 传统 的 方式 ) 。 
。 提高 决策 的 质量 。 
。 减少 投诉 。 
企业 搜索 的 评价 和 其 他 类 型 的 搜索 在 原则 上 没有 不 同 ， 但 重要 的 是 要 确保 评价 忠实 地 体 
现 真实 的 企业 搜索 。 对 同一 个 查询 ， 将 两 个 搜索 功能 的 结果 进行 并 排比 较 的 方法 〈 见 4. 5.2 
节 和 [1581]) 在 这 个 环境 中 有 很 多 优点 。 因 为 比较 工具 代替 了 通常 使 用 的 搜索 工具 ， 
D 如 果 所 研究 的 用 户 组 是 使 用 搜索 功能 总 体 的 一 个 均匀 样本 ， 那 么 关于 总 体 推 断 的 有 
效 性 可 能 只 受 限于 无 偏 采样 误差 。 采样 误差 当然 可 以 通过 增加 样本 大 小 而 降低 。 
2) 实验 者 没有 必要 了 解 (其 至 知道 ) 搜索 用 户 在 进行 什么 任务 。 对 于 每 个 搜索 用 户 ， 
要 求 记录 的 只 是 对 每 个 搜索 的 投票 (例如 ,， “偏爱 A”、“ 偏 爱 B”、“ 两 者 都 没有 用 ”、“ 两 者 
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同样 好 ”) 。 

3) 结果 集 被 整体 地 评价 。 即 使 大 部 分 文档 是 很 相关 的 ， 评 价 者 可 能 也 不 希望 大 量 内 容 
或 意见 相互 重复 的 结果 集 。 

4) 提交 查询 的 人 知道 他 们 为 什么 提交 ， 并 可 以 通过 查看 结果 集 是 否 满足 其 查询 背后 的 
需求 方式 来 评估 得 到 的 结果 集 。 实 验 者 不 需要 决定 : 应 该 判断 多 少 答案 ， 需 要 采用 多 少 级 的 
相关 性 ， 应 该 采用 什么 测度 ， 或 者 结果 集 内 的 重复 应 受到 什么 惩罚 。 相 反 ， 搜 索 用 户 下 意识 
做 的 任何 决策 过 程 对 于 他 们 的 任务 都 是 适合 的 。 

D 相 比 大 多 数 人 为 的 实验 室 检 索 实验 ， 并 排 评价 是 真实 的 进行 而 不 是 模拟 的 环境 。 此 
外 ， 为 同一 个 人 同时 给 出 A 和 B 两 种 条 件 ， 能 够 控制 不 同人 的 主观 性 差异 ， 以 及 在 不 同时 
间 点 同一 个 人 的 判断 差异 。 

有 时 ， 有 人 会 担心 并 排比 较 缺 乏 敏 感性 。 尽 管 TREC 会 议 的 随机 检索 评价 可 能 发 现 有 
百 分 之 几 的 MAP 差距 ， 但 是 ， 即 使 在 数 十 个 搜索 用 户 评价 足够 数量 的 查询 后 ， 对 于 系统 A 
和 系统 B 间 仍 然 可 能 没有 明显 的 偏好 。 不 过 ， 这 真是 这 种 方法 的 缺点 吗 ? 如 果 系 统 A 正在 
大 量 使 用 中 ， 并 排 研究 清楚 地 表明 ， 用 系统 B 代替 系统 A 得 到 的 好 处 是 很 小 的 。 用 户 投诉 
基 不 可 能 减少 。 

应 用 并 排 工 具 进 行 n 路 比较 ， 当 ”一 2 时 达到 最 优 。 按照 目前 的 显示 技术 ， 有 可 能 使 
超过 2， 但 是 判别 结果 的 次 数 需 要 增加 ， 并 且 随 着 判别 开销 的 增加 可 能 会 干扰 到 搜索 者 的 工 
作 。 在 [941] 中 ，n 二 3， 要 求实 验 者 在 同一 尺度 上 对 每 个 面板 定 级 ， 而 不 是 表达 对 每 一 对 
的 偏好 。 

并 排 方 法 的 一 个 更 大 的 限制 是 无 法 使 用 它 进 行 调整 。 一 个 典型 的 企业 排序 函数 需要 结合 
20 个 或 者 更 多 的 变量 。 调 试 组 合 函 数 需 要 大 量 的 偏好 数据 ， 而 它们 没 办 法 通过 并 排比 较 得 
到 。 如 同 在 Web 上 ， 对 于 点 击 数 据 的 分 析 可 以 用 于 挖掘 偏 好 关系 ， 见 4.5.5 节 。 


15.4.3 企业 搜索 调试 


为 了 调试 企业 搜索 系统 ， 人 们 可 以 使 用 一 个 传统 的 ， 但 公司 私有 的 测试 集 或 者 采用 机 器 
学 习 方法 来 大 量 收集 这 种 形式 的 数据 :“ 对 于 查询 Q， 文 档 Di 明显 优 于 文档 D:”( 基 于 控制 
偏 置 形式 后 的 点 击 频率 ) [841，844j。 以 TREC 随机 检索 的 风格 对 测试 集 进行 判断 ， 可 以 
由 机 构 的 员工 手动 建立 或 者 依靠 用 户 的 点 击 数据 。 

在 评价 中 依靠 点 击 数据 会 面临 一 些 风险 。 第 一 ， 它 可 能 会 受 系统 性 偏 置 的 影响 ， 更 偏向 
于 文档 的 标题 、URL 和 结果 集 片段 ， 当 标题 、URL 和 结果 集 片 段 相关 而 文档 不 相关 时 ， 往 
往 将 文档 作为 相关 的 ， 反 之 亦 然 。 第 二 ， 搜 索引 擎 排序 函数 可 能 以 各 种 方式 使 用 用 户 点 击 数 
据 ， 包 括 查询 依赖 的 和 查询 独立 的 。 用 一 个 基于 点 击 频率 的 代价 函数 调整 排序 是 有 风险 的 ， 
往往 会 高 估 函 数 的 点 击 成 分 ， 导致 可 用 点 击 数 据 很 少 的 ， 或 者 点 击 数据 有 误导 性 的 查询 ， 其 
表现 比 应 有 的 差 。 

当 使 用 测试 集 进行 调试 时 ， 文 档 集 〈 文 档 、 信 息 需求 、 判 断 和 测度 ) 应 准确 地 代表 实际 
情况 ;和 否则， 从 测试 集 上 决定 的 最 优 参数 设置 可 能 离 实际 应 用 的 最 优 值 相 差 很 远 。 

企业 搜索 的 工作 量 忠实 地 记录 在 搜索 引擎 保存 的 查询 日 志 中 。 一 个 明显 的 无 偏 评价 方 
法 是 从 查询 日 志 中 均匀 地 随机 抽样 ， 并 试图 找 出 对 于 查询 背后 的 信息 需求 最 有 用 的 答案 。 
[1389] 表明 对 搜索 引擎 所 预测 的 性 能 水 平 有 可 能 会 有 很 大 的 变化 ， 这 取决 于 查询 集 如 何 
选择 。 那 些 可 选 搜索 引擎 的 排序 可 以 很 容易 地 改变 ,取决 于 所 选择 的 用 于 评估 的 那些 
查询 。 
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工作 量 抽样 方法 的 限制 在 于 ， 需 要 从 日 志 中 的 查询 推断 出 信息 需求 。 在 某 些 情况 下 ， 解 
释 是 很 明显 的 ， 例 如 “薪资 标准 ”和 “知识 产权 政策 ”， 但 是 在 男 一 些 情况 下 ,提交 特定 的 
查询 可 能 有 多 个 原因 。 在 有 些 情况 下 ， 查 询 的 含义 完全 是 神秘 的 ， 或 者 查询 是 在 范围 之 外 ， 
即 在 文档 集中 没有 可 识别 的 、 有 用 的 答案 。 

另 一 个 问题 是 企业 搜索 引擎 〈 特 别 是 当 用 来 提供 外 部 网 站 搜索 时 ) 是 为 发 布 者 的 利益 运 
营 的 ， 而 不 是 为 了 信息 消费 者 。 在 很 多 情况 下 ， 发 布 者 的 利益 和 网 站 访问 者 重合 ; 但 在 某 些 
情况 下 ， 它 们 不 是 。 发 布 者 可 能 关注 于 对 某 些 查询 的 评估 ， 这 些 查询 与 机 梅 的 关键 业务 有 
关 。 人 例如， 银行 可 能 要 求 其 网 站 搜索 对 查询 “抵押 ” “房屋 贷款 ”或 “信用 卡 申请 ”提供 完 
美的 答案 集 ， 但 是 对 于 过 去 的 年 度 报 告 或 者 收费 表 的 请 求 就 不 那么 有 兴趣 。 许 多 机 构 都 希望 
搜索 引擎 的 性 能 有 所 偏向 ， 以 便 达 到 某 些 商业 或 政治 目标 。 

由 CSIRO 发 布 的 C-TEST 开源 工具 S [722] 为 测试 文件 提供 了 一 种 正式 的 表示 方法 ， 
它 可 以 对 很 多 因素 建 模 ， 这 些 因 素 对 于 有 意义 且 可 重用 的 企业 搜索 评价 是 必要 的 : 

D 给 测试 文件 中 的 每 个 查询 都 关联 一 个 权重 以 反映 重要 性 ， 它 可 以 由 商业 因素 或 者 提 
交 的 频率 决定 。 

2) 对 同一 个 查询 可 以 显示 多 个 解释 。 

3) 文档 集中 的 重复 文档 可 表示 为 和 单一 文档 具有 同等 价值 。 这 可 以 防止 搜索 系统 通过 
对 相同 的 文档 返回 多 个 副本 或 版 本 来 提高 得 分 。 

4) 相关 的 答案 可 以 设置 不 同 的 权重 以 反映 它们 对 于 满足 查询 的 特定 解释 之 后 的 信息 需 
求 的 贡献 。 

5) 给 定 查 询 之 后 的 需求 ， 对 该 查询 的 测试 文件 条 目 能 够 指定 合适 的 判断 深度 。 对 于 情 
报 评价 或 者 科学 研究 来 说 ， 对 排 在 前 1000 篇 的 文档 进行 判断 可 能 是 合理 的 。 然 而 ， 当 在 企 
业 网 上 寻找 人 力 资 源 部 门 的 主页 时 ， 员 工 不 可 能 会 耐心 地 查看 前 10 个 之 外 的 结果 。 

在 写本 书 时 ， 开 源 搜索 系统 Lemur. Terrier 和 Zettair 的 维护 者 都 同意 为 C-TEST 格式 
提供 支持 。 


15. 4.4 所 能 期 待 的 是 什么 


我 们 所 能 期 待 的 企业 搜索 工具 的 性 能 在 下 面 极端 情况 组 成 的 连续 区 间 中 的 某 处 :最 可 能 的 
答案 排 在 第 一 ， 以 及 在 许多 不 相关 的 答案 中 点 缀 着 一 些 不 完整 的 答案 ， 正 如 我 们 现在 讨论 的 。 

1. 最 可 能 的 答案 排 在 第 一 

如 果 我 们 在 当前 的 Web 搜索 引擎 上 查询 一 个 公司 的 名 称 ， 如 “福特 汽车 公司 ”， 或 者 数 
学 概念 的 名 字 ， 如 “ 强 连 通 分 支 "， 那 么 很 有 可 能 这 个 公司 的 最 佳 答案 页 面 ( 它 的 主页 ) 或 
者 概念 的 权威 定义 会 出 现在 搜索 结果 的 第 一 位 。 这 种 成 功 依赖 于 丰富 的 Web 搜索 环境 ， 链 
接 图 、 锚 文本 、URL 的 长 度 和 结构 、 用 户 行为 数据 等 。 它 还 依赖 于 为 回答 这 些 需 求 而 专门 
发 布 的 信息 的 可 用 性 一 一 公司 网 站 、 维 基 百 科 或 其 他 提供 高 质量 定义 和 解释 的 网 站 。 

2. 在 很 多 不 相关 结果 中 点 绎 着 一 些 不 完整 的 答案 

TREC 会 议 随机 检索 评价 竞赛 建 模 的 任务 (1992 一 1999 Æ) 〈 见 第 4 章 和 [1654]) 本 
质 上 是 从 新 闻 档 案 中 收集 信息 。 当 用 最 先进 的 搜索 工具 在 非常 小 的 文档 集 I 50 万 篇 文章 ) 
上 处 理 TREC 的 随机 查询 时 ， 如 “轮胎 回收 的 经 济 影 响 ” 和 “前 苏联 的 裂变 材料 蔓延 所 带 
来 的 影响 ”， 得 到 的 答案 远 远 无 法 令 人 满意 。 即 使 是 最 强 的 TREC 参与 系统 也 未 能 找到 一 半 
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的 相关 文档 ， 并 且 在 前 10 篇 中 返回 了 5 篇 或 者 更 多 的 不 相关 文档 。 在 这 种 搜索 中 ， 没 有 像 
www. ford. com 这 样 的 明确 答案 ， 而 一 篇 文章 比 另 一 篇 文章 更 重要 的 标志 也 难以 辨别 。 没 有 
链接 结构 ， 没 有 锚 文本 ， 没 有 站 点 结构 ， 在 TREC 的 随机 搜索 任务 中 也 没有 用 户 行为 数据 。 
而 且 ， 文 档 不 是 为 了 满足 这 些 查 询 的 信息 需求 而 存在 的 。 此 外 ， 查 询 可 能 与 它 应 该 匹配 的 文 
档 使 用 不 相同 的 词 : 例如 ,，“ 前 苏联 国家 ”应 该 匹配 “俄罗斯 *、“ 乌 克 兰 ”等 (也 可 能 是 相 
辣 索 引 项 的 西里 尔 字 和 母 等 价 表示 )， 而 “裂变 材料 ”应 该 匹配 “U-235”、“ 钱 ”等 。 在 这 种 
搜索 环境 中 ， 通 过 更 好 地 执行 文本 操作 ， 好 的 搜索 引擎 能 与 较 差 的 搜索 引擎 区 分 开 来 ， 这 些 
操作 包括 : 查询 扩展 ( 词 王 提取、 英美 拼写 合并 、 伪 相关 反馈 、 同 义 词典 )、 文 档 长 度 归 一 
化 和 相关 段落 权重 提高 。 

3. 企业 搜索 在 连续 区 间 的 哪个 位 置 

在 一 个 精心 组 织 的 、 如 同 Web 缩影 的 企业 网 中 ， 对 于 部 门 、 员 工 和 服务 的 搜索 可 能 会 
在 区 间 人 愉快 的 那 一 端 。 另 一 方面 ， 如 果 被 搜索 的 信息 包括 数据 库 中 的 纯 文 本 块 ， 或 由 Office 
文档 转 储 为 没有 元 数据 或 命名 约定 的 非 结构 化 共享 文件 ， 那 么 基本 性 能 会 降低 ， 用 户 会 不 满 
意 。 对 后 一 种 情景 ， 搜 索 效 果 顾 问 可 能 找 出 将 报告 的 当前 版 本 与 草稿 区 分 开 的 方法 ， 并 且 找 
出 各 种 查询 独立 的 因素 来 用 于 改进 排序 。 同 时 ， 他 们 还 可 能 建议 简单 地 改进 信息 发 布 和 存储 
的 方式 ， 作 为 改进 搜索 效果 的 手段 。 


15.5 不 满意 的 可 能 原因 


前 面 已 经 指出 ， 员 工 对 企业 搜索 的 满意 度 和 访问 者 对 网 站 搜索 的 满意 度 通常 很 低 。 满 意 
度 取决 于 “搜索 和 可 搜索 性 ”， 即 搜索 技术 的 效果 ， 和 有 和 多少 有 效 的 信息 和 服务 发 布 。 有 时， 
最 好 的 答案 没有 匹配 查询 ， 也 许 由 于 语言 〈 例 如 ， 查 询 是 “ 门 ”， 文 档 讨 论 的 是 “手工 操作 
的 个 人 出 口 机 制 ” )， 也 许 因为 查询 词 只 以 图 形 的 形式 存在 〈 例 如 ， 扫 摘 的 文档 ) 。 在 这 种 
情况 下 ， 似 乎 更 好 的 是 改善 信息 发 布 的 方式 ， 而 不 是 试图 修改 搜索 技术 。 

据 我 们 所 知 ， 当 前 的 搜索 技术 都 是 基于 统计 的 。 在 这 些 系统 中 ， 给 定 查询 ， 期 望 的 文档 
检索 得 分 取决 于 查询 与 文档 〈 及 其 注释 ) 的 匹配 程度 和 反映 文档 有 用 的 可 能 性 的 静态 得 分 
《如 Web 搜索)。 见 15. 3. 5 节 中 有 关 企 业 搜索 静态 得 分 的 可 能 成 分 。 一 篇 文档 的 排序 自然 取 
决 于 其 他 文档 所 取得 的 得 分 。 考 虑 信息 在 特定 网 站 上 发 布 的 方式 ， 从 而 调整 排序 算法 ， 能 够 
使 效果 有 很 大 不 同 。 

表 15-1 列 出 了 为 什么 对 于 特定 的 查询 ， 所 期 望 的 文档 排名 不 高 的 几 个 原因 。 但 是 ， 匹 
配 和 排序 只 是 企业 搜索 面 对 的 一 部 分 问题 。 在 关于 企业 搜索 工具 的 抱怨 中 ， 有 很 高 的 比例 实 
际 上 是 因为 需要 的 文档 甚至 不 在 搜索 引擎 的 索引 中 ! 表 15-2 列 出 了 出 现 这 种 情况 的 一 些 原 
因 。 值 得 注意 的 是 ， 通 过 使 用 非常 特定 的 查询 ， 应 该 能 够 确定 所 需要 的 文档 实际 是 否 在 索引 
中 《可 见 )。 例 如 ， 将 文档 标题 作为 短语 查询 ， 或 者 搜索 在 文档 URL 中 的 词语 。 


表 15-1 一 篇 关键 文档 在 索引 中 。 为 什么 对 于 这 个 查询 它 的 排名 不 是 第 一 















。 所 有 查询 词 都 出 现在 文档 的 索引 文本 
中 吗 

。 潜在 地 依赖 于 词 干 提取 、 同 义 词典 扩展 、 

部 分 匹配 、 拼 写 校正 、 语 义理 解 、 语 言 

翻译 ， 或 读 心 术 吗 






文档 真 的 与 查询 匹配 吗 或 许 搜索 工具 不 能 支持 这 些 事情 


日 感谢 《Private Eye》 提 供 的 例子 。 
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( 续 ) 
主要 诊断 特定 问题 解释 
” 文档 中 包 全 的 每 个 查询 词 的 个 数 有 多 少 入 多 搜索 引擎 根据 诡 售 在 问题 
。 查询 词 是 否 相 邻 出 现 ， 尤 其 是 作为 一 1 are 
es ne 中 的 特征 来 分 配 得 分 。 你 可 能 需 
，| 。 该 文档 不 如 其 他 文档 与 查询 匹 | 。 个 短语 SEAR ME EMME 
配 得 好 吗 。 查询 词 是 否 较 早出 现在 文档 中 i 





较 短 的 文档 也 可 以 同样 匹配 查 
询 吗 


排名 更 高 的 文档 有 更 多 的 人 链 
或 匹配 查询 的 文本 注释 吗 


BF FA) 查询 词 都 出 现在 文档 标题 
或 主题 词 中 〈 作 为 一 个 短语 ) 


它们 有 很 多 来 自 其 他 网 页 的 链接 ， 并 
在 锚 文 本 中 使 用 查询 词 吗 

它们 被 与 查询 匹配 的 分 众 分 类 法 标签 
标记 了 很 多 次 吗 

。 当 查 询 提交 时 ， 是 否 很 多 用 户 点 击 排 
名 更 高 的 文档 


出 现在 NOINDEX ( 非 索 引 ) 
部 分 


很 多 排序 算法 的 匹配 分 数 用 文 
档 长 度 进行 归 一 化 


这 些 特 征 在 提高 Web 搜索 质量 
方面 是 有 效 的 ， 也 能 够 在 企业 网 
上 效 得 成 功 








排名 较 高 的 文档 具有 表明 它们 
更 流行 或 重要 的 特征 吗 


。 有 更 多 人 链 吗 

。 有 更 多 分 众 分 类 标签 吗 

。 有 更 多 用 户 点 击 吗 

。 有 更 短 或 更 简单 的 URL 
。 最 近 有 更 新 吗 





D 


排名 较 高 的 文档 来 自 与 期 望 的 
结果 不 同 的 资源 库 吗 


有 些 搜索 引擎 提供 工具 来 允许 
显示 这 些 因素 





。 排序 函数 “意外 ”喜爱 来 自 特定 资源 
库 的 结果 吗 








管理 员 可 能 配置 系统 使 得 来 自 
一 个 资源 库 的 结果 优 于 另 一 个 ， 








_| | 或 者 鼓励 资源 库 的 多 样 性 
，| ”目标 文档 与 出 现在 排序 中 的 其 想 要 的 文档 可 能 已 经 作为 近似 重复 
他 文档 非常 相似 吗 的 文档 被 而 除 或 者 在 排序 中 向 下 压 





表 15-2 为 什么 所 需要 的 文档 似乎 不 在 搜索 工具 的 索引 中 呢 


诊断 





此 文档 存在 吗 





但 是 它 实际 上 不 存在 





它 在 范围 内 吗 





允许 我 看 到 它 吗 


搜索 范围 内 












解释 可 能 的 修正 
令 人 惊奇 的 是 ， 这 是 抱怨 的 一 个 真实 
原因 。 可 能 应 该 有 一 个 关于 X 的 报告 ， 创建 缺失 内 容 吗 
这 是 一 个 很 常见 的 失败 原因 。 期望 的 改变 默认 范围 来 增加 可 能 性 。 
文档 位 置 〈《 例 如 ， 外 部 网 站 ) 不 包含 在 | 确保 所 实施 的 范围 限制 是 经 过 说 


明 的 





典型 的 是 ， 限 制 某 些 员 工 看 到 太 多 的 








采集 者 可 以 访问 吗 


如 果 这 个 文档 是 二 进 制 的 或 专 
有 格式 ， 如 JPEG, PDF 或 MS 
Word， 那 么 它 的 文本 内 容 可 以 被 
提取 吗 


上 次 更 新 索引 时 ， 文 档 存 在 吗 








文档 被 标志 为 禁止 显示 吗 

















如 果 适 合 ， 开 始 改变 权限 





文档 。 你 登录 了 吗 ? 公司 可 能 不 希望 你 
看 到 这 些 文档 

如 果 一 个 企业 网 或 者 网 站 的 文档 无 法 
被 链接 ， 那么 它 可 能 没有 被 息 取 或 索引 。 
使 用 数据 库 和 文件 共享 ， 配 置 错误 可 能 
也 会 导致 丢失 内 容 
。 对 这 种 内 容 的 过 滤器 安装 了 吗 
。 如 果 是 PDF， 人 允许 文本 提取 吗 
。 如 果 文 本 内 容 是 用 图 形 表 示 的 而 不 是 
文本 形式 的 ,那么 系统 可 以 通过 
OCR 识别 图 像 吗 ? 如 果 可 以 ，OCR 
软件 会 曲解 查询 词 吗 
收集 、 过 滤 和 索引 操作 可 能 间 租 地 工作 
(例如 ， 每 周 )， 而 不 是 连续 地 工作 。 在 上 次 
收集 操作 后 发 布 的 文档 不 在 当前 的 索引 中 
。 管理 员 已 经 禁止 了 发 布 吗 
。 文档 包含 NOINDEX 标签 或 注释 吗 
。 文档 过 期 或 者 超过 了 合法 期 限 了 吗 
















保证 Web 内 容 可 以 链接 到 。 检 
查 允 许 和 排除 的 模式 。 检 查 如 
robots. txt 的 机 制 和 机 器 人 元 
标签 








以 容易 理解 的 格式 发 布 。 确 保 
安装 必要 的 过 滤器 





检查 收集 日 志 。 改 正 错误 。 发 
起 重 收集 


改正 发 布 的 错误 
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有 一 些 具 体 的 匹配 问题 ， 这 些 可 能 导致 企业 搜索 中 的 排序 问题 。 在 很 多 大 学 中 ， 地 图 是 
一 个 经 常 提交 的 查询 。 经 常 有 一 些 匹 配 页 面 拥有 很 多 入 链 和 高 度 匹 配 的 锚 文 本 ,但 它们 不 是 
这 个 查询 的 好 答案 。 这 些 是 大 学 范围 内 很 多 网 站 发 布 的 “网 站 地 图 ”。 类 似 地 ， 对 于 查询 校 
长 〈 或 院 长 )， 应 该 在 副 校 长 〈 副 院 长 ) 的 页 面 之 前 检索 到 校长 〈 院 长 ) 的 页 面 。 最 后 ， 对 
工程 学 士 的 查询 ， 应 该 首先 检索 到 这 个 特定 学 位 的 信息 ， 其 次 才 是 组 合 学 位 ， 如 工程 和 商业 
学 士 。 


有 很 多 方式 能 解决 这 些 匹配 问题 。 如 何 找到 它们 将 作为 一 个 练习 留 给 读者 。 


15.6 情境 化 和 个 性 化 


除了 索引 更 新 之 外 ， 无 论 何 时 ， 无 论 谁 提出 的 ， 一 个 简单 的 搜索 引擎 对 同一 个 查询 会 提 
供 相同 的 结果 ， 并 以 同样 的 方式 表示 它们 。 但 在 现实 中 ， 不 是 所 有 的 用 户 都 是 相同 的 ， 如 果 
可 以 得 到 并 利用 下 面 这 些 问 题 的 答案 ， 那 么 搜索 性 能 可 能 会 得 到 改进 : 谁 正 在 搜索 ?” 他 们 正 
扮演 什么 角色 ? 他 们 感 兴趣 的 是 什么 ? 他 们 为 什么 搜索 ? 他 们 在 何 处 ”他 们 正在 执行 什么 任 
务 ? 他 们 已 经 知道 什么 ? 他们 能 够 理解 什么 ? 

个 性 化 信息 检索 只 代表 个 性 化 研究 广阔 领域 的 一 方面 。Pierrakos 等 人 [1262] 调查 了 
这 个 广阔 的 领域 ， 并 概述 了 个 性 化 系统 的 一 些 可 能 的 功能 。 一 个 完全 个 性 化 的 企业 搜索 系统 
可 以 提供 个 性 化 的 门户 布局 ， 它 有 用 户 特 定 的 信息 显示 、 可 定制 的 外 观 和 感觉 、 有 针对 性 的 
提醒 、 个 人 搜索 历史 记录 、 可 定制 的 搜索 范围 ， 以 及 与 当前 讨论 相关 的 、 偏 向 个 人 需求 的 搜 
索 结 果 。 

众所周知 ， 如 果 情 境 是 已 知 的 并 可 以 利用 ， 那 么 个 人 搜索 就 可 以 得 到 改进 。Teevan 等 
人 [1571] 为 了 量化 个 性 化 搜索 的 潜力 ， 要 求 15 个 人 在 给 定 的 明确 搜索 意图 下 ， 为 一 个 查 
询 所 返回 的 50 个 网 页 按 非 常 相 关 、 相 关 和 不 相关 分 级 打分 。 对 于 实验 者 提供 的 查询 ， 他 们 
发 现 了 查询 意图 的 多 样 性 。 即 使 意图 是 相同 的 ， 他 们 对 结果 的 打分 也 有 很 大 的 不 同 。 

Pitkow 等 人 [1275] 在 一 个 实验 中 展示 了 真实 的 搜索 效果 收益 。48 个 Web 用 户 被 分 成 
新 手 和 有 经 验 的 用 户 两 个 组 。 他 们 研究 了 在 用 户 和 Web 搜索 引擎 间 插 人 个 性 化 客户 端 系统 
Outride 的 价值 。Outride 是 浏览 器 附加 组 件 ， 它 建立 了 一 个 基于 用 户 的 搜索 和 浏览 历史 ， 
以 及 人 口 统计 学 和 应 用 程序 使 用 轮廓 的 模型 。 它 扩充 了 用 户 提交 的 查询 ， 并 用 以 下 方法 处 理 
来 自 后 端 搜索 引擎 的 很 大 规模 的 结果 集 : 结果 分 成 “ 见 过 ”和 “ 没 见 过 ”两 类 ， 根 据 向 量 空 
间 形 式 的 用 户 轮廓 来 重新 排序 。Pitkow 等 人 观察 到 ， 完 成 搜索 任务 的 时 间 ， 以 及 鼠标 点 击 
或 者 键盘 输入 等 用 户 行为 ， 都 惊人 地 减少 了 。 

搜索 工具 的 行为 可 以 根据 组 别 、 个 人 或 任务 的 特性 来 定制 。 在 讨论 “基于 用 途 ” 的 信息 
检索 方法 中 ，Pitkow 等 人 [1275] 指出 检索 系统 能 够 工作 在 不 同 颗粒 度 的 用 途 数据 上 ， 并 
有 旦 需要 的 话 可 以 回落 到 较 粗 的 级 别 。 对 机 构 内 员工 的 情境 化 搜索 有 特别 的 潜力 ， 因 为 对 个 人 
可 以 了 解 得 更 多 ， 包 括 他 们 在 机 构 内 的 角色 和 他 们 可 能 会 执行 的 任务 。 然 而 ， 我 坚信 应 该 始 
终 提供 一 个 “基本 配置 (plain vanilla)” 选 项 ， 并 且 搜 索 用 户 始 终 能 够 发 现 关于 他 们 搜索 特 
点 的 假设 。 

在 讨论 情境 化 搜索 主题 时 ， 我 们 首先 回顾 搜索 引擎 对 查询 返回 的 结果 集 进 行情 境 化 时 可 
用 的 控制 和 工具 ， 它 们 可 以 用 来 改进 排序 〈 假 设 将 对 结果 进行 排序 ) ， 对 于 特定 需求 优化 结 
果 的 展示 。 接 下 来 ， 我们 讨论 客户 端 和 服务 器 情境 化 的 问题 。 我 们 下 面 会 探讨 搜索 情境 向 量 
可 能 存在 的 高 维度 ， 怎 样 才 能 通过 从 搜索 设置 中 派生 用 户 轮廓 来 降低 维度 ， 怎 样 才 能 确定 它 
的 值 ， 以 及 怎样 才能 把 它们 传递 给 搜索 服务 器 。 
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15.6.1 情境 化 的 控制 和 工具 


假设 我 们 知道 一 些 关 于 搜索 请 求情 境 的 有 用 信息 ， 这 些 情 境 信 息 可 以 通过 什么 方式 影响 
搜索 系统 的 行为 呢 ? 总 之 ， 搜 索引 人 擎 控制 有 五 类 : 范围 、 静 态 排序 、 查 询 操作 、 动 态 排序 和 
展示 。 对 于 一 个 特定 个 人 或 组 别 ， 这 些 控 制 的 设置 可 能 记录 在 搜索 轮廓 (search profile) 
中 。 我 们 会 在 本 节 的 后 半 部 分 讨论 轮廓 的 不 同类 别 和 定义 它们 的 方式 。 很 可 能 存在 一 个 完整 
的 全 局 轮廓 ， 它 有 效 地 定义 了 基本 配置 。 按 照 Pitkow 等 人 [1275] 所 描述 的 方式 ， 这 个 全 
局 轮廓 可 能 在 特定 的 搜索 中 被 相应 组 别 、 个 体 和 任务 的 局 部 轮廓 所 覆盖 。 

1. 范围 

搜索 范围 是 用 来 与 查询 匹配 ， 并 允许 展示 给 用 户 的 一 个 文档 的 完整 集合 。 范 围 受 到 加 入 
搜索 过 程 的 资源 库 的 控制 ， 受 到 用 来 在 那些 资源 库 中 匹配 文档 的 任何 排除 过 滤器 的 控制 ， 也 
受到 特定 搜索 上 的 访问 限制 的 控制 。 很 容易 看 到 ， 范 围 对 于 情境 化 搜索 是 一 个 强大 的 工具 。 
例如 ， 如 果 客 户 关系 管理 和 财务 资源 库 没有 包含 在 搜索 中 ， 那 么 研发 部 门 的 技术 人 员 对 于 搜 
索 结果 可 能 会 更 满意 。 

排除 过 滤器 可 以 根据 文件 类 型 、 媒 体 类 型 、 流 派 、 阅 读 年 龄 、 日 期 、URL 模式 或 元 数 
据 特 征 从 包含 的 资源 库 中 排除 一 些 文档 。 我 们 已 经 讨论 过 一 种 个 性 化 范围 : 文档 从 结果 列表 
中 过 滤 ， 因 为 提交 搜索 请 求 的 用 户 没有 得 到 访问 它们 的 权限 。 另 一 个 与 Web 类 似 的 例子 是 
成 人 内 容 过 滤 ， 其 中 个 人 的 偏好 信息 (或 者 他 们 父母 的 ) 用 于 规定 搜索 结果 的 范围 。 尽 管 成 
人 内 容 在 大 多 数 企 业 或 许 是 少见 的 ， 但 类 似 的 过 滤 技 术 可 以 用 来 为 某 些 个 人 或 组 别 抑制 某 些 
类 型 的 文档 〈 如 技术 手册 ) 或 者 某 些 企业 子 网 (例如 ， 员 工 幼儿 园 或 男 员工 的 曲棍球 队 )。 

个 人 元 搜索 [1580，1583] 是 范围 的 一 个 特定 例子 ， 其 中 个 人 选择 随 着 时 间 推 移 可 能 会 
对 他 们 很 重要 的 资源 ， 见 图 15-5。 对 于 一 个 特定 的 查询 ， 个 人 元 搜索 系统 可 能 会 根据 信息 源 
特点 以 及 个 人 过 去 的 行为 ， 选 择 信息 源 集合 的 一 个 子 集 。 





BibTeX 
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图 15-5 一 个 特定 的 个 人 元 搜索 配置 ， 显示 了 统一 搜索 中 包括 的 一 系列 信息 源 。 注 意 在 个 
人 、 工 作 组 、 企 业 和 外 部 层次 都 存在 着 信息 源 。 由 Paul Thomas 授权 提供 [1581] 
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2. 偏 置 

与 通过 范围 完全 排除 一 个 特定 内 容 类 别 不 同 ， 排 序 算法 的 偏 置 可 能 更 有 效 。 正 如 我 们 已 
经 看 到 的 ， 现 代 企 业 搜索 引擎 在 它们 的 排序 函数 中 包括 一 个 静态 成 分 ， 它 是 很 多 查询 独立 特 
征 的 加 权 组 合 ， 如 作者 流行 度 得 分 (例如 ，HITS、OPIC 或 PageRank) 、 用 户 流 行 度 得 分 
(例如 ， 由 点 击 派生 的 测度 )、 文 档 新 旧 程 度 等 。Jeh 和 Widom [831] 描述 了 一 个 系统 ， 它 
在 一 个 全 局 的 PageRank 向 量 中 加 入 了 个 性 化 的 部 分 向 量 ， 为 网 页 的 重要 性 和 流行 度 的 个 性 
化 视角 提供 一 个 可 扩展 的 实现 。 这 个 方案 与 一 些 企业 Web 相关 ， 但 是 这 种 企业 网 的 规模 要 
小 很 多 ,小 到 至 少 对 于 机 构 内 的 用 户 组 别 ， 它 可 能 可 以 保持 完整 的 个 性 化 向 量 。 情 境 化 用 户 
流行 度数 据 的 一 个 明显 形式 是 ， 记 录 基 于 个 人 或 组 别 的 用 户 交 互 数据 ， 并 且 使 用 特定 个 人 或 
用 户 组 的 流行 度 得 分 。 

所 有 可 以 使 用 在 范围 上 的 特征 也 可 应 用 在 偏 置 搜索 结果 上 来 支持 或 者 反对 这 些 特征 。 例 
如 ， 排 序 晃 数 可 能 只 是 偏向 于 反对 技术 手册 ， 而 不 是 完全 排除 它们 。 如 果 其 他 类 型 的 相关 文档 
很 少 ， 那 么 技术 手册 可 以 被 检 出 。 而 且 ， 总 经 理 撰写 的 文档 的 权重 可 能 被 提高 ， 也 可 能 被 降 
低 。 总 之 ， 搜 索 系 统 的 行为 可 以 通过 使 用 依赖 于 情境 的 查询 独立 的 权重 向 量 来 进行 情境 化 。 

3. 操作 查询 

用 户 提 交 的 查询 可 能 以 不 同 的 方式 进行 操作 ， 以 便 进 行 结果 的 情境 化 。 在 简单 的 情况 
下 ， 组 别 特有 的 (group-specific) 同义词 典 可 能 被 用 来 以 最 适合 该 组 的 方式 解释 有 歧义 的 查 
询 项 。 例如， 查询 CRM 在 销售 部 门 可 能 被 认为 是 客户 关系 管理 (customer relationship 
management)， 而 在 生产 部 门 被 认为 是 碳纤维 增强 成 型 (carbon reinforced mouldings)。 

通过 使 用 伪 相 关 反 馈 技 术 的 变种 进行 查询 扩展 ， 可 以 得 到 更 高 程度 的 自动 化 和 成 熟 性 ， 
如 Teevan 等 人 [1570] 所 描述 的 。 他 们 使 用 伪 相 关 反 馈 对 Web 搜索 查询 进行 扩展 ， 从 而 搜 
索 用 户 个 人 计算 机 中 的 文档 。 从 Web 搜索 引擎 得 到 一 个 比 通常 更 大 的 结果 集 ， 通 过 使 用 扩 
展 的 查询 对 文档 进行 本 地 重 打 分 ， 将 这 些 结 果 集 重新 排序 。Teevan 等 人 观察 到 ， 相 对 于 基 
准 排序 ， 该 方法 有 小 的 ， 但 统计 显著 的 改进 。 

4. 操作 动态 排序 函数 

如 在 第 4 章 中 所 见 ， 几 乎 所 有 对 文档 内 容 和 查询 的 相似 度 打分 的 函数 都 是 参数 化 的 。 所 
以 ， 尽 管 还 不 是 很 清楚 为 什么 特定 的 参数 设置 可 以 更 好 地 满足 某 些 用 户 ， 但 有 洪 力 通过 调整 
参数 来 针对 特定 用 户 或 用 户 组 改善 结果 质量 。 通 过 调整 文本 注释 的 使 用 ， 也 许 有 更 多 的 余地 
来 满足 特定 组 的 利益 。 例 如 ， 只 查看 与 某 人 相似 的 其 他 人 所 使 用 的 分 众 分 类 法 标签 ， 或 者 只 
考虑 由 某 人 所 属 的 组 别提 交 的 伴随 点 击 的 查询 。 

特定 的 语言 特征 或 转换 可 能 会 更 好 地 满足 某 些 用 户 (或 任务 )。 例如， 对 于 词 干 提取 ， 
人 们 可 能 倾向 于 重度 的 、 轻 度 的 、 没 有 ， 或 者 针对 特定 语言 的 。 当 执行 某 些 任务 时 ， 自 动 地 
将 美国 和 英国 的 英文 拼写 合并 ， 对 于 搜索 引擎 是 个 优势 。 有 些 人 可 能 偏好 于 包含 非 重 音字 母 
的 查询 应 该 匹配 相同 词 的 重音 版 本 ， 例 如 “canon” 应 该 匹配 “canon” M “cañon”, 185 — 
些 人 则 不 是 这 样 。 

有 些 排序 函数 包含 一 些 用 于 改善 返回 结果 多 样 性 的 组 件 。 例 如 ，Carbonell 和 Goldstein 
[332] 使 用 最 大 边际 相似 度 (maximal marginal relevance)。 在 他 们 的 方案 中 ， 一 个 文档 在 
最 终 排序 中 的 位 置 取决 于 它 与 查询 的 相似 度 及 它 与 排 在 前 面 文档 的 向 量 空间 中 心 的 不 相似 度 
的 组 合 。 其 他 的 方案 试图 包括 来 自 多 种 信息 源 的 结果 ， 或 者 多 种 结果 类 型 。 在 某 些 检索 系统 
中 ， 多 样 性 的 定义 和 所 得 到 的 回报 按 个 体 或 组 进行 配置 ， 但 是 我 们 现在 还 不 能 列举 出 在 实践 
中 用 来 提升 效果 的 例子 。 
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5. 人 机 界面 的 定制 

按 个 人 或 组 别 的 需求 ， 定 制 搜索 结果 展示 的 方式 有 很 多 种 。 你 想 要 看 到 排序 列表 形式 的 结 
R, 还 是 缩 略 图 网 格 ? 你 喜欢 搜索 页 面 上 列 出 简明 的 结果 ， 还 是 较 详细 的 ? 你 偏爱 哪些 颜色 或 字 
体 ? 你 最 言 欢 什么 语言 ? 如 果 显 示 的 是 所 有 答案 的 摘要 ， 而 不 是 单个 答案 的 列表 或 网 格 ， 你 会 选 
择 它 吗 ? 你 喜欢 看 到 分 面 统 计 、 查 询 建议 和 其 他 附加 的 服务 吗 ? 你 喜欢 在 搜索 的 顶部 有 突出 显示 
的 与 查询 相关 的 新 闻 条 目 吗 ? 你 偏爱 或 需要 将 搜索 结果 读 给 你 ， 而 不 是 显示 在 屏幕 上 吗 ? 

上 面 的 例子 适用 于 结果 的 展示 ， 但 定制 也 可 能 在 输入 方面 。 你 更 偏爱 于 输入 你 的 查询 ， 或 者 
说 出 来 ， 还 是 写 下 来 ? 你 喜欢 系统 协助 你 自动 完成 查询 输入 吗 ? 根据 自己 的 查询 历史 ， 或 者 
根据 你 所 在 组 别 的 分 享 历史 ? 很 多 这 些 问 题 涉 及 辅助 功能 ， 它 们 在 企业 背景 中 非常 关键 。 如 果 一 
个 残疾 的 员工 不 能 使 用 机 构 的 搜索 工具 ， 或 者 使 用 有 些 困难 ， 那 么 他 们 可 能 很 难 有 高 的 产 出 。 

最 后 ， 员 工 可 能 通过 电话 或 屏幕 面积 有 限 的 移动 设备 来 访问 企业 搜索 引擎 。 在 理想 情况 
下 ， 这 些 设 备 的 局 限 性 和 能 力 能 够 通过 搜索 工具 与 合理 构造 的 交互 而 识别 。 在 Web 中 ， 装 
有 GPS 系统 的 移动 设备 ， 或 者 知道 用 户 工作 站 的 实际 IP 地 址 可 以 用 于 定位 ， 然 后 根据 用 户 
所 在 的 国家 或 地 区 来 定制 搜索 结果 〈 和 交互 类 型 )。 有 些 跨国 公司 可 能 在 内 部 使 用 这 些 功 能 ， 
但 是 绝 大 多 数 公 司 因为 太 小 或 者 过 于 本 地 化 而 没有 这 样 做 。 


15.6.2 情境 化 : 本 地 、 企 业 或 全 球 


之 前 对 情境 化 的 大 部 分 讨论 在 搜索 定制 发 生 的 地 点 上 故意 含糊 其 辞 。 通 常 ， 企 业 中 那些 
承担 丰富 知识 和 信息 角色 的 员工 ， 分 配 有 个 人 计算 机 供 他 们 使 用 。 有 时 ， 个 人 计算 机 以 集中 
化 的 方式 工作 ， 可 以 从 集中 的 企业 或 工作 组 服务 器 访问 软件 ， 文 件 和 电子 邮件 也 存放 在 那 
里 。 然 而 ， 在 很 多 情况 下 ， 个 人 计算 机 必须 以 独立 的 方式 工作 ， 或 者 因为 公司 的 IT 政策 ， 
或 者 因为 它 是 一 台 可 在 家 、 在 客户 现场 或 者 在 会 议 上 使 用 的 笔记 本 电脑 。 无 论 具体 的 安排 是 
HA, 个 人 计算 机 总 是 能 够 收集 到 大 量 的 个 人 交互 信息 一 一 用 户 接 收 、 下 载 、 查 看 、 归 档 、 
发 送 、 编 辑 、 打 印 、 收 藏 和 搜索 了 什么 。 个 人 计算 机 也 可 以 潜在 地 监控 外 部 活动 一 一 人 们 对 
什么 样 的 社交 网 站 进行 访问 和 交互 ， 他 们 发 送 或 接收 了 哪些 “tweetsS ”和 即时 消息 。 

几乎 所 有 对 个 性 化 有 用 的 信息 主要 在 个 人 计算 机 上 收集 或 可 收集 ， 虽 然 它们 中 的 一 些 也 
可 由 机 构 中 的 服务 器 收集 ， 更 少量 的 一 些 可 由 机 构 外 部 的 搜索 和 其 他 服务 收集 〈 例 如 ISP). 
这 个 归纳 的 一 个 小 的 、 但 正在 不 断 增 加 的 例外 是 ， 大 量 的 交流 和 信息 交互 现在 往往 出 现在 移 
动 设备 上 。 有 些 主管 通过 黑莓 和 iPhone 来 处 理 他 们 大 部 分 的 电子 邮件 。 然 而 ， 电 子 邮 件 和 
联系 人 通常 与 他 们 的 个 人 计算 机 同步 。 

情境 化 的 一 个 重要 的 元 素 是 正在 执行 任务 的 性 质 〈 见 15. 2 节 的 一 些 例子 ) 。 在 企业 内 部 利 
用 这 点 有 很 大 潜力 ， 因 为 能 够 从 现在 正 进行 的 应 用 准确 地 推断 出 任务 。 例 如 ， 如 果 一 个 员工 运 
行 公司 的 项 目 成 本 估算 应 用 程序 时 ， 同 时 执行 搜索 ， 那 么 很 合理 地 推断 他 们 的 搜索 是 在 估算 项 
目 成 本 的 情境 下 进行 的 。 如 果 搜索 功能 被 嵌 人 到 应 用 中 ， 那 么 这 种 推断 将 会 更 加 可 靠 。 

客户 端 还 是 服务 器 

如 上 所 述 ， 对 个 性 化 和 其 他 形式 的 情境 化 有 用 的 大 多 数 信息 通常 可 以 在 个 人 计算 机 上 得 
到 。 客 户 端 个 人 计算 机 很 显然 是 保存 搜索 的 个 人 和 任务 轮廓 的 最 佳 场所 。 如 果 轮 廓 只 保存 在 安 
全 的 个 人 计算 机 上 ， 那 么 上 面 讨论 的 隐私 风险 便 可 以 得 到 控制 。 不 幸 的 是 ， 一 部 分 在 外 部 搜索 
引擎 上 (如 Web 搜索 引擎 ) 进行 的 个 性 化 搜索 任务 在 搜索 引擎 上 工作 得 最 好 ， 而 不 是 在 客户 
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端 个 人 计算 机 上 。 在 外 部 搜索 引擎 ， 对 于 范围 、 静 态 得 分 和 排序 的 修改 可 以 充分 地 发 挥 作用 。 

在 关于 用 Web 用 途 挖掘 (Web Usage Mining) 帮助 个 性 化 的 综述 中 ，Pierrakos 等 人 
[1262] 概述 了 一 系列 可 以 用 来 收集 Web 用 途 数据 的 方法 ， 包 括 客 户 端 机 器 上 的 日 志 工 具 
栏 、 数 据 包 嗅 探 器 、 保 存在 客户 端 和 服务 器 间 各 个 点 上 的 Web 日 志和 服务 器 日 志 。 他 们 还 
概述 了 一 些 问题 ， 包 括 在 远程 收集 的 数据 中 可 靠 地 识别 个 人 和 会 话 的 边界 。 

Web 搜索 引擎 为 个 人 保存 轮 廊 信息 ， 以 cookie 的 方式 按 查 询 先 后 顺序 维护 。 然 而 ， 这 样 
保存 的 个 人 轮廓 是 不 完整 的 ， 特 别 是 ， 如 果 个 人 使 用 多 个 搜索 引擎 ， 并 且 不 与 搜索 引擎 共享 电 
子 邮 件 或 文档 时 。 轮 廓 也 只 是 描述 了 被 特定 搜索 引擎 所 支持 的 个 性 化 。 另 一 方面 ， 机 构 内 运营 
的 搜索 工具 ， 包 括 个 人 元 搜索 ， 提 供 了 更 多 潜在 的 自 定义 的 范围 ， 隐 私 的 问题 更 容易 管理 。 

当然 ， 可 以 与 外 部 搜索 引擎 交流 交互 历史 、 轮 廊 或 部 分 轮廓 ， 但 是 我 们 接着 就 会 被 一 些 
问题 所 困扰 : 我 们 保留 隐私 的 愿望 遇 到 困难 ; 我 们 必须 用 适当 的 方式 与 搜索 引擎 交流 轮廓 中 
有 用 的 部 分 ， 以 便 既 能 达到 想 要 的 效果 ，、 叉 不 会 产生 过 多 的 网 络 流量 或 服务 器 负载 。 


15.6.3 轮廓 的 隐私 


有 很 好 的 理由 来 保留 交互 历史 和 个 人 搜索 轮廓 的 隐私 。 这 些 资料 可 以 向 竞争 对 手提 供 非 
常 有 价值 的 信息 ， 它 们 对 定向 广告 来 说 是 非常 有 用 的 数据 ， 在 比较 少见 的 某 些 场景 下 ， 还 可 
能 是 离婚 案 律师 、 勒 索 者 、 警 察 和 外 国情 报 机 构 强 有 力 的 资料 。 不 要 忘记 ， 我 们 正在 讨论 的 
某 些 轮廓 属于 那些 利益 和 活动 比 普 通 人 更 重要 得 多 的 人 物 。 任 何 关于 富有 的 企业 收购 者 或 美 
联储 高 管 所 执行 的 搜索 和 阅读 的 文档 的 信息 都 可 能 会 引起 市 场 投机 者 极 大 的 兴趣 。 另 一 些 人 
可 能 会 在 国家 总 统 或 缉毒 局 长 的 搜索 轮廓 中 发 现 更 大 的 价值 。 

1997 年 ， 一 个 关于 开放 轮廓 标准 (Open Profiling Standard)? 的 提案 提交 给 万 维 网 联 
盟 ， 这 将 保证 轮廓 信息 的 安全 交流 ， 但 是 它 尚未 得 到 采用 。 


15.6.4 定义 、 建立 和 维护 轮廓 


有 些 研 究 人 员 ， 他 们 对 搜索 行为 的 所 有 情境 都 感 兴趣 ， 而 且 会 把 所 有 的 “生活 点 滴 ” 
(my life bit?) 以 及 所 有 对 气象 、 地 理 、 心 理 和 社会 因素 的 描述 都 认为 是 相关 的 情境 。 换 名 
话说 ， 他 们 的 目标 是 理解 人 们 和 他 们 的 在 线 行为 ， 而 不 是 提高 单个 搜索 “事务 ”的 价值 。 

如 果 我 们 考虑 更 一 般 和 实际 的 情况 ， 那 么 很 难 准确 地 说 明 应 该 记录 什么 信息 ， 以 便 得 到 
上 面 提 到 的 、 对 于 某 个 特定 人 的 特定 搜索 的 最 优 控制 和 工具 设置 。 上 面 提 到 的 、 可 能 用 于 产 
生 搜 索 轮 廓 的 交互 信息 ， 可 以 通过 运行 在 本 地 操作 系统 层次 的 软件 或 浏览 器 和 其 他 个 人 或 企 
业 应 用 的 附加 组 件 或 插件 记录 下 来 。 很 容易 完整 地 记录 所 有 的 交互 事件 〈 和 对 象 ) 和 它们 发 
生 的 时 间 [17，1570]。 其 他 较 不 完整 的 记录 可 以 保存 在 离 用 户 较 远 的 地 方 ， 如 代理 服务 器 
或 搜索 引擎 等 应 用 上 。 

另 一 个 要 回答 的 问题 是 ， 如 何 确定 哪些 轮廓 应 该 应 用 于 搜索 。 同 一 个 人 可 能 喜欢 不 同 的 
轮廓 (或 一 个 也 没有 )， 这 取决 于 他 们 在 某 一 特定 时 间 内 从 事 的 活动 。 我 们 是 否 能 够 建立 一 
个 自动 确定 正确 轮廓 、 正 确 率 达 到 100% 的 系统 ? 可 能 不 会 。 但 是 ， 我 们 怎么 能 在 不 使 用 户 
混淆 的 情况 下 ， 向 用 户 解释 哪些 轮廓 是 可 用 的 以 及 它们 如 何不 同 。 在 一 个 企业 中 ， 最 好 的 方 
法 有 时 可 能 是 让 用 户 从 一 个 命名 清楚 的 轮廓 组 中 进行 选择 (如 果 他 们 愿意 的 话 )， 如 销售 、 
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财务 、 人 力 资源 、 研 发 和 基本 配置 。 


15. 6.5 用 户 建 模 


自动 产生 轮廓 的 过 程 可 能 描述 为 用 户 建 模 。 现 在 已 经 有 一 些 不 同 种 类 的 用 户 模 型 。 

1. 本 体 向 量 

Pretschner 和 Gauch [1302] 描述 了 一 个 系统 ， 其 中 用 户 轮廓 由 一 个 带 权 向 量 组 成 ， 向 
量 每 一 维 对 应 在 某 个 公开 本 体 中 4400 个 层次 类 别 中 的 一 个 。 每 个 类 别 用 一 个 文档 向 量 表 示 ， 
它 代表 这 个 类 别 的 10 篇 典型 文档 的 混合 。 当 用 户 访问 一 个 网 页 时 ， 会 计算 这 个 网 页 相对 于 
每 个 类 别 的 相似 度 ， 并 且 轮 廓 的 权重 就 由 一 个 关于 这 些 相 似 度 、 页 面 浏览 时 间 和 页 面 长 度 的 
函数 进行 更 新 。 研 究 发 现 ， 随 着 时 间 的 推 欧 ， 轮 廓 会 收敛 ， 并 且 轮 廓 可 以 用 来 对 来 自 后 端 搜 
索 系 统 的 结果 进行 重 排序 和 过 滤 。 通 过 重 排序 ，11 点 平均 精度 得 到 了 适度 但 有 价值 的 提升 ， 
而 过 滤 的 结果 则 比较 模 楼 两 可 。 

如 本 节 之 前 介绍 的 ，Pitkow 等 人 (1275) 取得 了 更 大 的 收益 ， 采 用 的 是 相当 不 同 的 评 
价 方法 。 他 们 使 用 了 相似 的 本 体 向 量 轮廓 ， 但 是 他 们 没有 给 出 确切 的 细节 。 他 们 的 方法 使 用 [677] 
了 查询 扩充 和 重 排序 。 

2. 相关 反馈 方法 

Teevan 等 人 [1570] 描述 了 一 些 基 于 各 种 不 同 的 用 户 轮廓 的 方法 ， 为 搜索 引擎 返回 的 
前 50 个 结果 进行 重 排序 。 一 个 简单 且 收 效 甚 大 的 方法 是 提升 来 自用 户 最 近 访 问 域 的 URL 
排序 。 一 个 更 复杂 的 模型 采用 用 户 桌 面 搜 索 工具 的 索引 来 表示 它们 ， 即 个 人 计算 机 上 的 所 有 
文件 、 网 页 和 电子 邮件 。 桌 面 搜索 的 索引 用 作 一 个 伪 相 关 反 馈 引 擎 ， 它 生成 一 个 扩展 的 查 
询 ， 用 来 对 Web 搜索 引擎 的 前 50 个 结果 进行 重 排序 。 不 幸 的 是 ， 原 始 的 网 页 排序 和 URL 
重 排序 都 好 于 这 个 高 度 个 性 化 的 重 排序 。 然 而 ， 一 个 结合 了 原始 网 页 排序 和 个 性 化 排序 的 混 
合 方法 可 以 改进 原始 的 Web 排序 ， 这 个 改进 比较 小 ， 但 却 是 统计 显著 的 。 

Waern [1662] 研究 的 用 户 轮廓 中 包含 索引 项 的 长 列表 ， 它 们 或 者 是 用 户 手动 构建 的 ， 
或 者 是 自动 产生 的 。 研 究 发 现 ， 用 户 普 遍 无 法 改善 机 器 学 习 的 轮廓 ， 但 同时 指出 ， 用 户 在 轮 
廓 维护 中 的 参与 对 于 改正 自动 轮廓 产生 器 的 错误 是 十 分 重要 的 。 

3. 通过 用 户 的 点 击 来 刻画 用 户 

我 们 已 经 讨论 过 Joachims [841] 使 用 点 击 学 习 更 好 的 排序 函数 的 工作 。Joachims 提 到 
将 点 击 用 于 个 性 化 的 可 能 性 ， 但 是 没有 报告 结果 。Dou 等 人 [508] 应 用 Microsoft 搜索 引 
擎 的 日 志 对 5 个 个 性 化 搜索 策略 进行 了 一 个 大 规模 的 评价 ， 其 中 的 两 个 是 基于 点 击 的 ， 而 其 
他 的 是 基于 自动 产生 的 轮 廊 。 他 们 发 现 个 性 化 对 于 显著 改善 搜索 质量 是 有 潜力 的 ， 但 这 种 改 
善 在 不 同 的 查询 间 有 很 大 不 同 ， 有 时 甚至 有 害处 。 他 们 发 现 那 些 有 高 点 击 粹 的 查询 是 从 个 性 
化 收益 最 多 的 查询 ， 简 单 的 、 基 于 点 击 的 个 性 化 始终 是 有 益 的 ， 而 试图 捕捉 用 户 兴 趣 的 轮廓 
则 不 是 很 稳定 。 完 全 基于 用 户 过 去 点 击 的 方法 只 能 改善 用 户 之 前 提交 的 查询 。 为 了 解决 这 个 
限制 ， 另 一 个 方法 使 用 点 击 模式 将 用 户 分 配 到 有 共同 兴趣 的 组 中 ， 每 个 用 户 组 的 点 击 历史 用 
于 个 性 化 。 然 而 ， 所 得 到 的 个 人 和 用 户 组 的 点 击 轮廓 没有 什么 区 别 性 。 





4. 语言 模型 
Tan 等 人 [1556] 描述 了 信息 检索 的 语言 模型 框架 的 扩展 ， 包 括 从 点 击 行为 产生 的 短期 
(当前 会 话 ) 和 长 期 的 历史 语言 模型 。 这 些 历 史 模型 可 以 看 做 另 一 种 形式 的 轮廓 。 


5， 偏 置 的 PageRank 
另 一 种 完全 不 同形 式 的 用 户 轮 廊 是 由 Jeh 和 Widom [831] 提出 的 个 性 化 PageRank 向 
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量 模型 ， 在 15. 6. 1 节 已 经 讨论 过 了 。 


15.6.6 隐 式 评价 


Kelly 和 Teevan Æ [896] 中 综述 了 来 自用 户 在 检索 、 过 滤 和 推荐 行为 中 的 隐 式 评价 。 
他 们 论文 中 的 表 工 列 出 了 5 类 用 户 行为 一 一 检查 、 保 留 、 参 考 、 注 释 和 创建 ， 它 们 可 以 在 轮 
廓 建立 过 程 中 观察 和 使 用 。 表 1 也 确定 了 每 一 类 特定 行为 所 作用 的 项 目的 最 小 范围 ， 而 他 们 
论文 中 的 表 2 将 之 前 的 相当 多 研究 纳入 到 表 1 中 。 

Microsoft 的 研究 人 员 已 经 广泛 地 研究 了 隐 式 评价 〈 从 他 们 浏览 器 的 测试 版 本 得 到 ) 在 
改善 Web 搜索 结果 中 的 应 用 。Fox 等 人 L580] 确定 ,一些 隐 式 评价 的 概率 组 合 ， 如 点 击 和 
页 面 停留 时 间 ， 可 以 准确 地 预测 用 户 做 出 的 显 式 判 断 。Agichtein 等 人 [18] 扩展 了 这 个 工 
作 ， 加 入 了 查询 依赖 的 测度 ， 并 提出 了 一 个 对 于 噪声 健壮 的 分 布 式 模型 。Agichtein 等 人 
[17] 表明 ， 当 与 大 规模 机 器 学 习 模 型 结合 时 ， 隐 式 评价 可 以 用 来 改善 Web 搜索 的 性 能 ， 无 
论 是 通过 对 原始 结果 集 的 重 排序 ， 还 是 通过 整合 到 基本 的 排序 函数 中 。 他 们 的 研究 包含 3000 
个 查询 和 1200 万 次 用 户 交 互 。 这 些 研究 都 设 有 以 个 性 化 的 目的 使 用 隐 式 评价 ， 但 是 它们 在 
构建 个 人 或 组 别 的 轮廓 时 显然 是 有 湾 力 的 。 鉴 于 机 构 之 间 的 不 同 以 及 交互 数据 的 稀疏 ， 还 不 
清楚 这 项 工作 的 经 验 可 以 在 什么 程度 应 用 到 企业 搜索 中 。 

White 等 人 [1687] 指出 尽管 显 式 的 相关 反馈 可 能 是 有 益 的 ， 但 它 强加 给 用 户 一 个 负 
担 。 他 们 分 析 了 相关 反馈 的 隐 式 版 本 (Implicit version of Relevance Feedback, IRF), H} 
用 户 的 一 些 行为 ， 如 阅读 、 滚 动 和 保存 ， 可 以 用 于 推断 其 相关 性 。 尽 管 IRF 不 一 定 有 益 ， 
但 是 他 们 报告 ， 用 户 倾向 于 它 ， 尤 其 是 新 手 。 他 们 还 发 现 ，IRF 对 复杂 的 搜索 任务 更 有 价 
值 ， 相 比 开 始 和 结束 ， 它 更 可 能 应 用 在 搜索 活动 的 中 间 阶 段 。 


15.6.7 ”信息 过 滤 


个 性 化 搜索 结果 可 以 看 成 将 信息 检索 (IR) 和 信息 过 滤 (Information Filtering, IF) 
中 的 工具 结合 在 一 起 。Hanani 等 人 L696] AIR MIF 提供 了 一 个 详细 的 概念 框架 ， 并 对 它 
们 进行 了 对 比 。 首 先 产生 通用 的 搜索 结果 ， 然 后 过 滤 那 些 用 户 不 可 能 感 兴趣 的 结果 。 个 性 化 
的 上 且 标 是 ， 通 过 将 立即 需求 的 简短 叙述 (查询 ) 和 更 广阔 的 、 长 期 的 轮廓 相 结合 ， 能 够 得 到 
更 好 的 随机 搜索 结果 。 在 分 流 和 报警 系统 中 ， 我 们 仍然 看 到 IR 和 IF 技术 的 结合 ， 但 在 这 种 
情况 下 ， 没 有 即时 查询 。 相 反 ， 为 搜索 服务 注册 长 期 的 轮廓 。 新 创建 或 发 现 的 文档 与 轮廓 进 
行 匹配 ， 如 果 足 够 匹配 ， 那 么 文档 可 以 通过 电子 邮件 或 RSS 转发 给 用 户 。 

几 十 年 来 ，Lexis-Nexis 等 机 构 已 经 提供 了 信息 的 选择 性 传播 (Selective Dissemination 
of Information, SDD 服务 ， 用 户 注 册 一 个 包含 布尔 查询 的 轮廓 ， 得 到 与 过 滤器 匹配 的 所 有 
文档 。 在 这 个 模型 中 ， 用 户 需 要 创建 一 个 过 滤 查 询 ， 并 且 必 须 维护 它 ， 以 保证 他 们 不 会 错过 
重要 的 文档 或 者 为 他 们 不 感 兴趣 的 文档 付款 。 最 近 ， 谷 歌 在 Web 搜索 引擎 中 提供 了 一 个 类 
似 报警 设施 的 提醒 服务 。 对 于 用 户 注册 的 长 期 查询 ， 排 在 前 列 的 文档 中 ， 新 出 现 的 那些 将 作 
为 候选 提醒 ， 发 送 到 用 户 。 谷 歌 研究 人 员 Yang 和 Jeh [1740] 讨论 了 这 个 提醒 服务 的 问题 ， 
并 描述 和 评估 了 从 用 户 搜索 历史 中 自动 抽取 提醒 轮廓 的 方法 。 面 临 的 挑战 是 在 查询 日 志 中 确 
定 用 户 的 长 期 兴趣 ， 使 得 用 户 对 看 到 新 文档 会 有 兴趣 。 

信息 过 滤 的 另 一 种 方法 是 自动 地 将 个 人 与 一 个 组 相关 联 ， 并 使 用 组 轮廓 来 定制 结果 。 这 
就 是 所 谓 的 协同 过 滤 (Collaborative Filtering, CF) 系统 ， 有 时 称 为 社会 化 推荐 系统 


(Social Recommender Sytem), 
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15.6.8 社会 化 推荐 系统 


现代 的 搜索 引擎 ， 无 论 是 在 Web 上 还 是 在 企业 中 ， 都 在 它们 的 基础 排序 方法 中 执行 一 
类 通用 的 协同 过 滤 。 被 很 多 作者 链接 的 文档 ， 或 者 被 很 多 读者 标注 或 点 击 的 文档 ， 往 往 获 得 
更 高 的 静态 得 分 ， 并 在 结果 排序 中 有 较 高 的 排序 。 这 样 ， 个 人 搜索 用 户 可 以 从 作者 、 浏 览 器 
和 搜索 用 户 群 体 智慧 中 受益 。Resnick 和 Varian [1343] 描述 了 一 些 推荐 系统 ， 以 及 它们 是 
如 何 工作 的 。 为 了 在 协 交 过 滤 框 架 内 完成 个 性 化 ， 人 们 可 以 在 整个 群体 中 识别 组 ， 并 将 个 体 
关联 到 一 个 适合 的 组 中 。 

Heer 和 Chi [740] 研究 了 对 xerox. com 网 站 上 的 用 户 会 话 进行 分 类 的 方法 ， 并 进行 了 
一 项 用 户 研 究 ， 其 中 要 求 用 户 执 行 一 些 实际 的 信息 发 现任 务 。 通 过 组 合 浏览 路 径 和 页 面 停留 
时 间 等 特征 ， 能 够 达到 很 高 的 聚 类 精度 。 但 是 ， 对 于 新 的 访问 者 或 者 新 的 浏览 会 话 ， 分 类 有 
多 快 ， 以 及 分 类 是 否 可 以 用 于 改善 搜索 的 性 能 ， 还 不 是 很 清楚 。 

一 个 在 线 购物 网 站 能 够 向 用 户 展 示 他 们 可 能 感 兴趣 的 东西 ， 吸 引 他 们 的 注意 ， 从 而 有 效 
地 增加 销售 。“ 购 买 商品 X 的 用 户 也 购买 了 Y。” 这 个 问题 可 以 使 用 信息 检索 的 方法 解决 ， 
将 消费 者 选择 的 商品 〈 或 购买 商品 的 累计 列表 ) 看 成 一 个 查询 ， 并 检索 相关 的 商品 。 然 而 ， 
正如 Linden 等 人 在 [1036] 提 到 的 ， 亚 马 逊 发 现 基 于 搜索 的 方法 在 用 户 大 量 购 买 的 时 候 会 
失败 。 相 反 ， 他 们 采纳 关联 商品 的 方法 ， 使 用 一 个 离线 计算 的 商品 -商品 相关 性 的 矩阵 。 如 
果 两 个 商品 经 常 被 同一 个 消费 者 购买 ， 那 么 它们 被 认为 是 密切 关联 的 。 

有 兴趣 的 读者 可 以 参考 Adomavicius 和 Tuzhilin [15] 对 于 基于 内 容 的 协同 和 混合 过 滤 
方法 的 全 面 综述 。 


15.7 ”趋势 和 研究 问题 


企业 搜索 所 面临 的 挑战 是 为 知识 密集 型 机 构 的 全 部 文档 内 容 提 供 单个 查询 的 搜索 界面 。 
理想 的 企业 搜索 工具 会 提供 充足 质量 的 结果 来 支持 额外 的 功能 ， 如 商业 智能 分 析 、 用 于 执法 
的 轮廓 构造 、 知 识 挖掘、 报告 生成 和 多 文档 摘要 。 注 意 ， 企 业 搜索 工具 是 这 些 功能 的 天 然 平 
台 ， 因 为 它 将 来 自 多 个 资源 库 的 文档 和 数据 汇集 在 一 起 ， 并 将 它们 转换 成 兼容 的 、 可 访问 的 
模式 。 在 最 近 几 年 ， 商 业 搜索 产品 更 密切 地 支持 或 集成 了 商业 应 用 。 

然而 ， 如 15. 1 节 指 出 的 ， 有 大 量 的 证 据 表 明 ， 企 业内 部 的 搜索 还 没有 接近 当今 Web 搜 
索 的 用 户 满意 度 。 员 工 很 少 访问 企业 搜索 工具 ， 跨 越 企业 信息 资源 ， 返 回 相 对 于 查询 最 有 用 
的 结果 。 这 似乎 很 奇怪 ， 虽 然 有 很 大 的 生产 力 和 竞争 力 ， 但 利益 似乎 从 高 效 的 企业 搜索 流 走 
了 。 重 要 原因 首先 是 对 企业 搜索 的 特定 问题 缺乏 研究 ， 其 次 是 缺乏 合适 的 企业 搜索 测试 集 ， 
再 次 是 公司 文档 和 信息 需求 的 保密 性 ， 以 及 机 构 间 的 巨大 差异 。 现 在 慢 慢 有 趋势 开发 至 少 覆 
盖 部 分 企业 搜索 空间 的 测试 集 。 和 希望 保密 问题 可 以 很 快 解决 ， 研 究 步伐 可 以 加 快 。 

在 此 期 间 ， 企 业 搜 索 中 的 一 些 重要 领域 的 研究 继续 进行 。 第 一 ， 分 布 式 信 息 检 索 ， 特 别 
是 个 人 元 搜索 ， 它 与 企业 内 部 的 异 质 信息 资源 的 联合 问题 相关 。 第 二 ,“ 在 防火 墙 后 面 "， 能 
ERAS Web 搜索 类 似 的 、 有 效 的 排序 因素 。 第 三 ， 对 搜索 结果 个 性 化 、 定 制 化 以 及 多 样 
性 的 支持 。 第 四 ,语言 功能 ， 如 同义词 检测 、 实 体 提取 、 翻 译 、 摘 要 、 查 询 建议 。 

面 对 企 业 搜 索引 擎 的 挑战 ， 需 要 系统 内 所 有 组 件 的 贡献 ， 包 括 最 初 的 创建 和 发 布 过 程 。 
虽然 一 直 有 进展 ， 但 在 工程 、 研 究 、 标 准 的 采用 和 商业 实践 中 需要 更 多 的 努力 。 


15.8 文献 讨论 
信息 检索 的 普遍 问题 在 其 他 章节 已 经 讨论 了 ， 如 爬 取 、 索 引 、 排 序 、 结 果 展 示 、 摘 要 和 
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多 媒体 检索 ， 这 些 在 企业 搜索 领域 内 部 都 非常 重要 。 读 者 可 以 参考 相关 章节 。 本 章 主要 关注 
企业 搜索 引擎 的 独特 问题 。 

第 一 ， 机 构 内 部 的 很 多 工程 挑战 [9，274，675，719，1535] 一 定 要 解决 ， 以 便 获 得 高 
质量 的 文本 文档 来 进行 索引 : 根据 机 构 部 署 的 一 系列 资源 库 和 应 用 程序 进行 适应 性 调整 ， 以 

681) 便 提 取 文 档 ; 有 效 地 扫描 包含 文本 文件 的 共享 文件 系统 ; 准确 和 高 效 地 从 如 PDF 和 Office 
文档 等 二 进 制 文件 中 提取 文本 ; 对 安全 系统 进行 有 效 的 身份 验证 。 在 某 些 情况 下 ， 从 资源 库 
中 提取 文档 是 不 可 行 的 ， 因 此 该 资源 库 的 搜索 能 力 必须 与 主要 的 企业 搜索 工具 联合 。 

第 二 ， 在 异 质 文档 集中 排序 文档 和 展示 结果 的 问题 。 链 接 和 锚 文 本 等 排序 证 据 的 宝贵 来 
源 ， 可 能 存在 于 某 些 子 文档 集中 ， 而 在 其 他 中 没有 。 据 我 们 了 解 ， 对 十 分 异 质 的 文档 集 的 单 
一 索引 检索 进行 优化 的 工作 目前 还 很 少 。 即 使 在 关于 分 布 式 信 息 检 索 的 广泛 研究 中 ， 除 了 
Thomas 的 博士 论文 工作 [1580, 1583] 以 及 Stuff I’ve Seen 系统 [518] 外 ， 与 真正 的 异 质 
资源 库 联 合 相 关 的 工作 也 很 少 。 目 前 还 不 是 很 清楚 ， 从 人 工 划分 TREC 随机 检索 文档 集 而 
产生 的 模拟 资源 上 进行 实验 所 得 到 的 结论 在 企业 联合 背景 中 是 否 实用 。 第 三 ， 当 展示 结果 
时 ， 通 常情 况 ， 必 须 对 最 初 排序 进行 过 滤 来 删除 一 些 特定 用 户 无 权 看 到 的 文档 。 

第 四 ， 由 于 文档 和 信息 需求 的 保密 性 ， 以 及 机 构 间 在 信息 量 、 资 源 库 数量 、 文 档 类 型 数 
量 、 搜 索 特 点 的 巨大 不 同 ， 评 价 企业 搜索 变 成 了 一 个 困难 的 问题 。 这 使 得 企业 搜索 的 研究 很 
困难 ， 调 试 “ 开 发 中 ” Cin the factory) 的 企业 搜索 引擎 很 困难 。Hansen 和 Jarvelin [697]. 
Freund 等 人 [589，590]， 以 及 Hertzum 和 Pejtersen [756] 已 经 研究 了 真实 的 企业 搜索 ， 
而 Craswell 等 人 [439], Bailey 等 人 [126] 则 描述 了 面向 企业 搜索 和 专家 发 现 的 测试 集 。 
读者 可 以 参考 2005—2008 年 TREC 企业 搜索 的 任务 综述 和 参与 报告 。 这 些 可 以 在 
http; //trec. nist. gov/proceedings/ proceedings. html 得 到 。 

第 五 Grefenstette 在 ECIR’09 的 主题 演讲 [675] 概述 了 Web 搜索 和 企业 搜索 的 11 
个 具体 不 同 。 

个 性 化 和 定制 化 这 两 个 重要 主题 并 不 是 特定 于 企业 搜索 的 ， 但 在 这 个 领域 有 一 些 重 要 的 
潜力 和 特殊 的 特征 。 除 了 本 节 上 面 引 用 的 文章 之 外 ，[15，896，1262] 等 综述 文章 , “信息 
交互 情境 ”(Information Interaction in Context) 研讨 会 9 的 论文 集 也 是 开始 阅读 情境 化 和 个 
性 化 论文 的 一 个 好 地 方 。 

两 个 专门 的 企业 主题 有 很 高 的 经 济 重 要 性 ， 值 得 特别 一 提 。 基 于 公司 记录 的 法 律 发 现 搜 
索 有 可 能 获得 很 高 的 影响 力 。Roitblat[1378] 和 Baron 等 人 [149] 提供 了 有 用 的 概述 。 专 
利 检 索 是 另 一 个 面向 法 律 的 任务 ， 它 对 于 很 多 主要 的 公司 都 很 重要 。 自 2002 年 的 第 3 届 研 
讨 会 开始 ， 专 利 检 索 已 经 在 日 本 国家 信息 研究 所 (Japanese National Institute of Informat- 
ics) 主办 的 NTCIR 系列 研讨 会 中 得 到 研究 ， 参 见 http://research., nii. ac. jp/ntcir/publica- 
tionl-en. html 的 在 线 论 文集 。 最 近 ， 在 维也纳 的 信息 检索 研究 室 (Information Retrieval 
Facility, IRF, http://www. ir-facility. org/the_irf) 已 经 建立 ， 目 标 是 促进 和 支持 开放 信息 

检索 ， 特 别 是 专利 检索 。 它 提供 数据 集 和 大 规模 的 计算 基础 设施 来 支持 研究 项 目 ， 并 先后 赞 
助 了 CLEF-09 中 的 知识 产权 检索 和 TREC-09 的 化 学 文献 检索 任务 。 

企业 信息 架构 的 广泛 主题 是 2006 年 在 Morville 和 Rosenfeld 的 书籍 《Information Architecture 

for the World Wide Web) [1157] 中 提出 的 。《Search and Information Access Report》 是 一 份 回顾 
了 当前 可 用 的 企业 搜索 选项 的 报告 ， 由 CMS Watch 不 时 发 布 。 其 他 综述 则 关注 于 企业 部 门 。 





© http: //irsg. bes. org/iiix2008/, 
© http://www. cmswatch. com/Search/Report/, 
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16. 1 图 书馆 的 信息 环境 


Web 是 个 奇妙 的 信息 环境 ， 能 够 提供 范围 广泛 的 主题 信息 。 但 它 也 是 混乱 和 非 结构 化 
的 ， 所 提供 信息 的 准确 性 、 可 靠 性 、 完 整 性 或 者 时 效 性 可 能 都 存在 问题 。 在 谷歌 8 上 搜索 
“信息 检索 ”"， 在 第 一 页 上 显示 如 下 链接 : 一 篇 介绍 信息 检索 的 维基 百科 文章 ， 两 个 指向 
1979 年 van Rijsbergen 撰写 的 关于 信息 检索 书籍 正文 的 条 目 ， 一 门 信息 检索 课程 的 主页 ， 三 
个 与 信息 检索 期 刊 相关 的 网 页 ， 一 个 主要 的 人 工 智能 协会 的 页 面 ， 由 一 家 咨询 公司 提供 的 资 
源 网 页 ， 以 及 《现代 信息 检索 》 第 一 版 的 主页 。 使 用 雅虎 搜索 得 到 类 似 的 结果 。 显 然 ，Web 
搜索 只 是 信息 搜寻 过 程 的 第 一 步 ， 而 信息 搜寻 需要 与 用 户 进行 高 层次 的 互动 ， 即 用 户 持续 点 
击 链接 ， 对 所 提供 信息 的 类 型 和 质量 ， 以 及 是 否 与 他 的 信息 需求 相关 进行 判断 ， 直 到 信息 需 
求 得 到 满足 ， 或 者 在 可 用 信息 范围 内 尽 可 能 满足 。 

Web 是 个 快速 、 方 便 地 回答 问题 〈 例 如 地 址 和 事实 )， 或 者 提供 与 主题 相关 信息 的 好 资 
源 。 其 信息 存储 的 高 度 元 余 意味 着 ， 在 回答 信息 需求 时 ， 通 常 有 许多 可 用 的 资源 。 但 是 
Web 并 不 能 满足 所 有 的 信息 需求 。Web 固有 的 出 版 自由 是 电子 出 版 时 代 的 显著 标志 ， 这 意 
味 着 任何 人 都 可 以 针对 某 个 主题 发 布 信息 ， 而 不 考虑 其 准确 性 ， 因 此 信息 可 能 带 有 偏见 甚至 
是 不 正确 的 。 并 非 所 有 的 信息 都 是 免费 提供 的 ， 例 如 许多 图 书 和 期 刊 信息 受到 版 权 保护 ， 在 
Web 上 是 不 开放 的 ， 另 外 一 些 信息 是 私有 的 ， 例 如 商业 记录 。 并 非 所 有 的 信息 都 是 以 数字 
格式 存储 的 。Web 上 的 大 多 数 信息 ， 特 别 是 图 像 或 视频 〈 参 见 第 14 章 ) 等 非 文本 资料 ， 没 
有 以 任何 方式 编目 或 索引 。 因 此 ，Web 搜索 不 能 回答 或 者 不 能 完全 回答 许多 问题 。 

在 当前 面向 Web 的 检索 环境 中 ， 人 们 很 容易 忘记 信息 检索 系统 还 在 其 他 环境 中 发 挥 着 重 
要 作用 。 在 很 多 情况 下 ， 典 型 的 Web 搜索 将 是 不 可 接受 的 一 一 在 搜索 与 某 个 医疗 条 件 对 应 的 
诊断 和 治疗 方法 时 ， 甚 至 会 发 生 致 命 的 后 果 。 在 律师 搜索 法 律 案例 、 先 例 和 专利 权 ， 企 业 搜索 
公司 信息 并 以 此 为 基础 进行 财务 决策 ， 研 究 人 员 收 集 背 景 资 料 以 支持 他 们 的 研究 项 目 ， 大 学 生 
准备 一 篇 平衡 的 分 析 性 学 期 论文 等 许多 情况 下 ， 需 要 搜索 比 Web 更 正式 、 更 结构 化 的 信息 源 。 
图 书馆 提供 的 信息 检索 系统 能 够 搜索 文档 集 、 书 籍 、 期 刊 、 数 字 化 资料 和 数据 库 。 这 些 资料 已 
被 系统 地 获取 和 组 织 ， 以 满足 图 书馆 用 户 的 信息 需求 。 而 且 ， 即 使 这 些 图 书馆 中 的 信息 能 在 
Web 上 公开 ， 在 企业 世界 中 仍然 有 大 量 的 信息 存储 在 封闭 库 中 以 供 搜索 。 

尽管 图 书馆 有 时 给 人 的 印象 是 需要 通过 卡片 目录 访问 陈旧 的 、 持 土 飞扬 的 书库 ,但 它们 却 是 
最 早 使 用 信息 检索 系统 的 机 构 之 一 。 这 种 使 用 方式 在 早期 主要 通过 两 种 形式 : 由 商业 供应 商 提 供 
对 远程 电子 数据 库 的 访问 ， 为 读者 提供 参考 服务 ;在 图 书馆 创建 馆藏 资料 的 目录 记录 ， 并 提供 搜 
索 服 务 。 最 近 又 增加 了 数字 期 刊 8〈 电 子 期 刊 )、 电 子 图 书 、 关 于 当地 机 构 或 历史 的 数字 化 资料 、 
数字 化 课程 、Eprints 和 机 构 资源 库 等 馆藏 资料 ， 甚 至 还 包括 选 定 的 网 站 。 

人 们 创造 了 “混合 图 书馆 ”一 词 来 形容 这 个 传统 印刷 资源 和 现代 数字 资源 的 组 合 。 一 个 





© 2007 年 4 月 的 搜索 结果 。 
O 在 本 章 中 ， 我 们 更 多 使 用 “数字 ”来 描述 在 线 资源 ， 而 不 是 “电子 ”， 因 为 后 者 是 不 够 准确 的 早期 术语 。 
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典型 的 定义 [799] WF: 
混合 图 书馆 是 “新 的 ”电子 信息 资源 和 “传统 的 ” 硬 找 贝 资源 共存 ， 并 组 合成 
综合 信息 服务 ， 通 过 电子 网 关 访 问 的 图 书馆 。 它 既 可 以 像 传统 图 书馆 一 样 提供 现场 

服务 ， 又 可 以 通过 互联 网 或 者 本 地 计算 机 网 络 提供 远程 访问 。 混 合 图 书馆 与 典型 的 

图 书馆 网 站 有 两 点 不 同 : 一 个 是 印刷 和 电子 信息 资源 永久 和 平等 的 包容 性 ; 第 二 个 

是 用 可 扩展 的 方式 、 为 特定 用 户 组 聚焦 和 解释 包括 特定 主题 和 通用 对 象 在 内 的 整个 

服务 。 混 合 图 书馆 的 哲学 假设 是 ， 图 书馆 提供 各 种 有 组 织 的 访问 ， 而 不 限于 本 地 馆 

藏 ， 后 者 只 是 传播 方式 的 一 部 分 。 

图 书馆 所 面临 的 挑战 是 为 无 数 种 类 的 本 地 和 远程 资源 创建 集成 和 无 颖 的 访问 。 图 书馆 的 
读者 习惯 于 按 Web 的 “搜索 框 文化 ”L251] 操作 ， 他 们 期 望 信 息 检索 免费 、 简 单 而 且 方 便 ， 
能 够 立即 访问 资源 的 全 文 。 图 书馆 的 馆藏 信息 有 不 同 的 来 源 、 格 式 ， 且 需要 订阅 和 许可 才能 
EH, FER Web 搜索 引擎 一 样 提供 集成 访问 就 成 为 一 大 挑战 。 有 些 挑战 与 访问 暗 网 时 遇 
到 的 问题 类 似 ， 需 要 通过 数据 库 访问 信息 ， 而 不 是 表层 的 网 页 。 

图 书馆 检索 系统 有 些 与 众 不 同 的 特点 。 它 们 提供 一 系列 数据 库 供 用 户 访问 : 联机 公共 检 
# AS (Online Public Access Catalogue, OPAC) 提供 图 书馆 的 核心 印刷 和 数字 馆藏 信息 
RS; 商业 文摘 和 索引 服务 ; 电子 期 刊 ， 电 子 图 书库 ; (数字 〉 特 藏 ，Eprints; 以 及 机 构 资 
源 库 。 虽 然 理想 的 方案 是 将 这 些 数据 库 整 合成 单一 的 检索 系统 ， 但 在 实践 中 它们 是 通过 多 个 
独立 的 系统 进行 搜索 的 。 图 书馆 网 站 通常 可 以 作为 一 系列 搜索 服务 的 网 关 或 门户 ， 尝 试 建立 
统一 的 外 观 和 感觉 。 另 一 个 增长 中 的 趋势 是 ， 使 用 OpenURL 技术 帮助 建立 不 同 的 搜索 系统 
之 间 的 超 链接 一 一 从 图 书馆 目录 到 电子 期 刊 ， 从 书目 引用 到 期 刊 文章 的 全 文 。 

本 章 的 重点 是 实际 使 用 中 的 图 书馆 信息 检索 系统 。 在 16.4 节 ， 我 们 也 将 简要 地 讨论 组 
织 机 构 内 部 的 新 兴 信 息 检 索 应 用 一 一 企业 搜索 ， 它 与 图 书馆 环境 中 的 信息 检索 有 一 些 相似 之 
处 ， 也 有 一 些 不 同 。 


16.2 联机 公共 检索 目录 


图 书馆 目录 是 图 书馆 馆藏 资源 的 传统 接 人 点 。 今 天 ， 大 多 数 图 书馆 使 用 图 书馆 集成 系统 
(Integrated Library Systems，ILS) 来 管理 目录 和 馆藏 。ILS 的 核心 组 成 部 分 是 联机 公共 检 
索 目录 (OPAC), 

图 书馆 目录 作为 图 书馆 的 馆藏 清单 ， 被 设计 为 发 现 馆藏 资源 的 工具 。 多 年 来 这 一 功能 先 
是 由 卡片 目录 提供 ， 后 来 是 由 计算 机 制作 的 书籍 、 缩 微 胶 卷 和 缩微 胶片 的 目录 提供 。 尽 管 最 
时 的 联机 目录 是 由 一 些 连接 到 自动 化 流通 系统 的 模块 组 成 ， 提 供 的 目录 记录 很 简单 ， 功 能 也 
非常 有 限 ， 但 它们 自 20 世纪 70 年 代 开 始 应 用 于 图 书馆 。 那 时 的 流通 系统 是 现在 所 谓 的 图 书 
馆 集成 系统 的 第 一 个 组 成 部 分 。 到 了 20 世纪 80 年 代 ， 真 正 的 联机 公共 检索 目录 已 经 实现 。 
OPAC 系统 最 初 是 在 大 型 (通常 是 学 术 性 的 ) 图 书馆 系统 内 部 开发 使 用 ， 后 来 由 商业 供应 商 
开发 并 用 于 统 包 系 统 9 中 。OPAC 系统 采用 标准 化 的 记录 格式 ,一般 是 MARC 记录 ， 使 用 
最 少量 的 主题 信息 〈 标 题 、 少 量 主 题词 和 分 类 编号 ); 与 商业 信息 检索 系统 不 同 ， 它 们 从 一 
开始 就 面向 最 终 用 户 (图 书馆 读者 )。 

Hildreth [764] 将 联机 目录 的 历史 分 成 三 代 。 第 一 代 OPAC 系统 主要 是 寻找 已 知 项 
(known-item〉 的 工具 ,通常 根 据 作 者 、 标 题 和 控制 号 搜索 ， 并 含有 相当 短 的 、 非 标 准 的 书目 


O HERA (turnkey system)， 也 称 为 交 钥匙 系统 ， 由 软件 (经 常 也 有 硬件 ) 组 成 ， 通 常 根据 特定 的 图 书馆 类 型 
和 规模 开发 。 在 系统 限制 范围 内 ， 可 能 提供 某 些 定制 方案 以 适应 特定 的 图 书馆 。 
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记录 。 作 为 处 于 起 步 阶段 的 典型 技术 ， 它 们 基本 上 是 旧 技 术 〈 卡 片 目录 ) 的 自动 化 。 第 二 代 
OPAC 系统 先后 增加 主题 词 和 关键 字 搜索 功能 ， 具 有 基本 的 布尔 搜索 能 力 ， 并 能 够 按 主题 词 浏 
览 。 第 二 代目 录 系 统 也 可 以 选择 显示 格式 GN, KE), BREA HE 〈 例 如 ， 对 于 初学 者 
和 专家 提供 不 同 的 对 话 ， 更 丰富 的 错误 信息 等 )。Hildreth 认为 第 二 代 系 统 的 问题 包括 失败 的 
搜索 、 导 航 的 混乱 、 主 题 索 引 词 汇 表 的 问题 ， 以 及 过 大 的 、 组 织 不 佳 的 检索 结果 集 。 

根据 Hildreth 的 描述 ， 第 三 代 系 统 需要 增强 的 功能 包括 搜索 策略 协助 、 集 成 自由 文本 
和 受 控 词汇 表 、 可 以 扩充 的 编目 记录 、 跨 数据 库 访问 、 自 然 语 言 输 入 、 个 性 化 显示 和 上 下 文 
敏感 的 错误 校正 。 然 而 ， 多 年 以 来 ， 图 书馆 目录 仍然 处 在 Hildreth 所 说 的 “第 二 代 平 台 ”。 
OPAC 发 展 创新 的 障碍 包括 开发 新 系统 的 成 本 ， 以 及 可 靠 客 户 群 的 需求 。 对 图 书馆 而 言 ， 选 
择 和 迁移 到 新 系统 是 昂贵 的 过 程 。 由 于 预算 总 是 被 挤 压 ， 图 书馆 在 选择 未 经 试验 的 新 系统 时 
一 直 很 谨慎 。 他 们 已 经 学 会 了 警惕 “下 一 版 发 布 ” 综 合 症 ， 而 系统 开发 者 却 需要 一 个 稳定 的 
客户 群 来 为 新 系统 开发 提供 经 费 。 

第 三 代 系 统 包 含 着 生活 在 前 Web 环境 中 的 Hildreth 未 曾 设想 的 功能 。Web 上 可 用 的 电子 
资源 已 经 使 本 地 和 全 球 资源 、 编 目 信 息 和 其 他 电子 数据 库 之 间 的 区 别 变 得 模糊 。 自 动 化 系统 供 
应 商 可 以 从 图 书馆 过 渡 到 混合 的 数字 /打印 环境 的 过 程 中 获得 利益 。 在 竞争 激烈 的 市 场 中 ,他 
们 的 生存 依 束 于 能 否 帮 助 图 书馆 在 这 种 混合 竞技 场 中 获得 成 功 。 因 此 ， 最 近 许 多 图 书馆 系统 的 
开发 重点 是 在 新 的 开放 式 系 统 架构 下 部 署 ILS 功能 。 这 些 新 系统 的 标准 功能 包括 改进 的 图 形 用 
户 界面 (Graphical User Interface, GUD., X} Z39.50 和 都 柏林 核心 标准 (Dublin Core， 多 媒体 
资料 的 元 数据 标准 ) 的 支持 、 电 子 表 单 、 超 文本 链接 ， 以 及 Java 编程 功能 。 在 基本 布尔 搜索 
功能 之 外 ， 系 统 还 引入 了 结果 的 相关 性 排序 功能 。 在 引用 和 图 书馆 资源 之 间 自 动 建 立 链接 的 功 
能 已 被 纳入 。 有 些 产品 支持 10.7 节 、11. 10. 3 节 和 15. 3. 8 节 所 讨论 的 联合 搜索 或 元 搜索 。 

但 是 ， 由 于 发 展 缓慢 ， 未 能 和 其 他 环境 的 发 展 趋势 匹配 ， 目 前 这 一 代 ILS 已 经 受到 了 批评 。 
例如 ，Breeding [252] 指出 ， 虽 然 ILS 能 够 很 好 地 处 理 传统 图 书馆 资源 ， 但 它们 在 电子 内 容 产 品 
方面 已 经 落后 ， 结 果 就 成 了 模块 的 大 杂烩 ， 严 重 缺 少 集成 。OPAC 模块 的 核心 搜索 能 力也 受到 了 
批评 ， 有 些 系统 不 能 对 结果 按照 相关 性 排序 ， 而 另外 一 些 系统 虽 有 排序 功能 ， 但 无 法 提供 对 用 户 
有 用 的 排序 列表 (参见 Schneider 在 ALA Techsource (美国 图 书馆 协会 技术 博客 ) 发 表 的 帖子 
[1441] 对 这 一 点 的 有 趣 讨论 )。 今 天， 典型 的 图 书馆 自动 化 环境 ， 特 别 对 中 、 大 型 的 学 术 图 书馆 
而 言 ， 需 要 ILS 管理 传统 的 内 容 和 一 整套 附加 产品 ， 以 支持 多 种 类 型 的 电子 内 容 。 

对 照 Web 的 发 展 速 度 ， 图 书馆 系统 的 发 展 步伐 引起 了 越 来 越 多 的 不 满 。 最 近 一 篇 题 为 
“Rethinking How We Provide Bibliographic Service for the University of California” 的 报告 中 指出 : 

AABEHE, AMNMBARRAAREARAMELMGR, BAL LA, 

服务 和 技术 的 持续 发 展 ， 已 经 颠 履 了 我 们 对 馆藏 资料 的 安排 、 检 索 和 表示 。 我 们 的 

用 户 期 待 使 用 简单 和 回馈 直接 的 系统 ， HEt, Akf iTunes 作为 对 我 们 

评判 的 标准 。 我 们 目前 的 系统 在 它们 周围 点 然 失 色 [1618，p. 2]。 


16. 2. 1 OPAC 和 书目 记录 


图 书馆 使 用 标准 化 体系 对 馆藏 资料 〈 文 本 和 其 他 媒体 ) 进行 编目 和 分 类 ， 这 有 利于 合作 
和 一 体 化 。 通 常情 况 下 ， 它 们 遵循 这 样 的 一 套 做 法 ; 使 用 英美 编目 规则 (Anglo-American 
Cataloguing Rules) 描述 这 些 资料 ， 采 用 美国 国会 图 书馆 (Library of Congress) 或 杜威 十 
进 制 分 类 法 (Dewey Decimal Classification) 等 组 织 模式 来 指定 主题 代码 ， 利 用 主题 词 表 
(如 国会 图 书馆 主题 词 表 ) 来 指派 一 系列 的 主题 描述 符 。 基 于 这 种 标准 化 体系 ， 图 书馆 联盟 
可 以 进行 合作 编目 ， 以 降低 图 书馆 馆藏 资料 的 单位 编目 成 本 ， 并 通过 共享 数据 库 扩 大 访问 ， 
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以 促进 资料 的 共享 。 因 此 ， 图 书馆 编目 依赖 于 书目 公益 机 构 集 中 和 共享 信息 ， 例 如 联机 计算 
机 图 书馆 中 心 (Online Computer Library Center，OCLC)S 。OCLC 是 由 世界 各 地 112 个 国 
家 和 地 区 的 69000 多 家 图 书馆 组 成 的 合作 会 员 制 组 织 ， 所 维护 的 WorldCat KA 1 万 多 家 图 
书馆 的 联合 馆藏 目录 ， 包 括 了 超过 1. 25 亿 条 书目 记录 和 超过 13 亿 条 图 书馆 馆藏 信息 。2006 
年 ， 此 目录 向 公众 开放 ， 网 址 是 worldcat. org。 通 过 所 提供 的 FirstSearch 服务 ，OCLC 也 
成 为 一 家 数据 库 供 应 商 ， 具 有 表 16-5 所 示 的 特性 。 

支持 许多 不 同 图 书馆 的 联机 目录 库 之 间 进 行 合作 的 基础 是 机 器 可 读 目 录 (Machine 
Readable Cataloging Record, MARC), MARC 是 一 种 数据 格式 ， 它 实现 了 ANSI Z39. 2 fF 
息 交 换 格式 (Information Interchange Format) 和 ISO 2709 信息 交换 格式 (Format for In- 
formation Interchange) 等 国家 和 国际 标准 。 它 也 有 一 些 在 世界 范围 内 广泛 使 用 的 变 体 ， 例 
如 USMARC 和 UKMARC 等 。MARC 记录 样本 如 图 16-1 所 示 。 


This example can be identified as a record for projected material by code g in Leader/06, and more specifically as a motion picture by code m in 

field 007/00. This record illustrates the use of several MARC data elements to describe an archival motion picture, dnciuding: the use of character 

positions 09-/22 in field 007, and multiple occurrences of fields 007, 300, and 541 for the several versions of the motion picture being described. 
ther noteworthy data elements include: the use of field 017 (Copyright or Legal Deposit Number); field 040, subfield $e (Description conventions); 











field 257 (Country of Producing Entity for Archival Films); and field 510 (Citation/References Note). 
LDR weormecgm # #2 2° #a #4500 

001 <control number> 

003 <control number identifier> 

005 19920513133548.3 

007 mr#bf##dnnartnnac198607 

007 mr#bf##dnnbdtnnac1 98607 

007 mr#bf##dnnaetnnac198607 

a [70505 "SISTER FEF oru055 dd Add [FFT EC | 
017 ## $aLP12321$bU.S. Copyright Office 

040 ## $a<organization code>$c<organization code>$eamim 


245 00 $a=M'liss /$cPickford Film Corp. ; supervised and directed by Marshall A. Neilan ; 
photoplay by Frances Marion. 


257 ## $aU.S. 
260 ## $aUnited States :$bArtcraft Pictures Corporation,$c1918. 
300 ## $a5 reels of 5 on 2 (1988 ft.) :$bsi., b&w ;$c16 mm.$3ref. print 


300 ## $a5 reels of 5 on 2 (1988 ft.) :$bsi., b&w ;$c16 mm.$3dupe neg. 
300 ## $a5 reels of 5 on 2 (1988 ft.) :$bsi., b&w ;$c16 mm.$3arch pos. 
500 ## $aCopyright: Famous Players-Lasky Corp.; 18Apr18; LP12321. 
500 ## $aOriginally released in 35 mm.. 


500 ## $aBased on a story by Bret Harte. 


508 ## $aPhotographed by Walter Stradling ; art director, Wilfred Buckland. 

510 4# $aNew York times film reviews,$c5-6-18. 

510 4# $aVariety film reviews,$c5-10-18. 

510 4# $aMoving picture world,$cv. 36.1, p. 894, 897, 1043. 

511 1# $aMary Pickford (M'liss), Theodore Roberts (Bummer Smith), Thomas Meighan (Charles 


Gray), Charles Ogle (Yuba Bill), Tully Marshall (Judge Joshua McSnaggley), Monty Blue 
(Mexican Joe), wg Paul (Jim Peterson), Winnifred Ca (Clara Beason). 7 


520 ## $aA western comerty melodrama set in the mining town, Red Gulch, Calif. about the 
untamed daughter ( ary Pickford) of the town drunk (Theodore Roberts) who falls in love 
with the new schoolteacher (Thomas Meighan) who is accused of murdering her father and 
the situations that occur during his murder trial. 


541 ## $3ref print$dReceived: 8-20-80 from LC film lab; $cgift;$aPickford (Mary) Collection. 

541 ## $3dupe neg$dReceived: 11-20-79 from LC film lab; $cgift;$aPickford (Mary) Collection. 

541 ## $3arch pos$dReceived: ca. 1958 from USDA film lab; $cgift, copied from 35 mm nitrate on 
loan;$aPickford (Mary) Collection. 

650 #0 $aFrontier and pioneer life$zWest (U.S.)$vDrama. 

650 #0 $aTrials (Murder)$vDrama. 

700 1# $aNeilan, Marshall A.,$d1891-1958,$edirection. 

700 1# $aMarion, Frances,$d1888-1973,$ewriting. 

700 1# $aPickford, Mary,$d1893-$ecast. 


700 1# $aRoberts, Theodore, $d1861-1928,$ecast. 

700 1# $aMarshall, Tully, $d1864-1943,$ecast. 

700 1# $aMeighan, Thomas,$d1879-1936,$ecast. 

710 2# $aArtcraft Pictures Corporation. 

710 2# $aPickford Film Corp. 

710 2# $aFamous Players-Lasky Corporation. 

710 2# $aPickford (Mary) Collection (Library of Congress)$5DLC 


Æ 16-1 MARC 记录 样本 ， 来 自 Edie Rasmussen， 并 得 到 网 络 发 展 和 MARC 标准 办 公 室 的 许可 
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MARC 记录 有 三 个 部 分 : 一 个 固定 长 度 (24 个 字符 ) 的 记录 头 标 ; 地 址 目次 区 显示 记 
录 内 每 个 字段 的 3 位 数字 标识 符 ， 和 字段 的 字符 长 度 (RED); 以 及 数据 字段 和 子 字段 。 
子 字段 用 子 字段 标识 符 (例如 “$a”) 表示 ， 具 体内 容 取 决 于 每 个 字段 。 例 如 ，260 字段 包 
含 出 版 发 行 信息 ， 可 能 含有 地 点 、 出 版 商 和 日 期 等 子 字段 〈 此 处 显示 的 记录 已 按 字段 标识 符 
进行 了 格式 处 理 ， 每 个 字段 一 行 ， 以 提高 可 读 性 )。Web 出 现 后 ， 增 加 了 856 字段 ， 显 示 数 
字 资 源 的 位 置 访问 信息 ， 在 记录 内 部 提供 了 超 链接 。 

尽管 MARC 记录 提供 了 有 关 馆 藏 资料 的 详细 书目 信息 ， 但 是 大 部 分 信息 更 适合 于 已 知 项 
搜索 ， 而 不 是 主题 搜索 。 能 够 被 索引 从 而 支持 主题 搜索 的 基本 字段 包括 245 字段 ， 即 题名 说 明 
字段 ， 以 及 650 字段 ， 即 主题 附加 条 目 〈Subject Added Entry) 一 一 论题 性 词语 (Topical 
Tem) 字段 ， 其 中 包含 主题 词 或 索引 项 。050 一 08X 字段 也 有 以 分 类 编码 形式 表示 的 主题 信息 ， 
但 在 没有 解释 的 情况 下 ， 大 多 数 用 户 无 法 直接 使 用 。 为 了 在 MARC 记录 中 增加 更 多 可 搜索 的 
主题 信息 ， 图 书馆 可 以 与 出 版 商 缔约 ， 以 便 用 书籍 的 目录 (505 字段 ) 和 摘要 和 注释 (520 字 
Br) 来 丰富 MARC 记录 。 这 些 举措 大 大 提高 了 MARC 记录 可 搜索 的 文本 量 。 

MARC 记录 是 书目 信息 交换 的 标准 ，ILS 使 用 它 作为 输入 和 输出 格式 ， 但 记录 的 内 部 
存储 可 能 会 以 另 一 种 格式 。 用 于 图 书馆 目录 远程 搜索 的 Z39. 50 协议 在 搜索 和 检索 时 兼容 
MARC 格式 ， 并 允许 同时 查询 多 个 OPAC。 如 需 了 解 更 多 信息 ， 可 参阅 6. 2 47; 如 需 了 解 
MARCXML， 即 MARC 的 XML 版 本 ， 请 参阅 6. 4. 3 节 。 


16.2.2 来 自 ILS 的 信息 检索 


图 书馆 通过 ILS 提供 的 目录 包含 了 以 元 数据 或 编目 信息 形式 表示 的 增值 信息 ， 这 些 目录 可 
以 方便 用 户 访问 。 然 而 ， 对 于 大 多 数 OPAC 编目 记录 ， 元 数据 是 唯一 的 可 搜索 信息 ， 因 为 无 法 
提供 文档 全 文 。OPAC 搜索 有 两 种 主要 类 型 : 已 知 项 搜索 和 主题 搜索 。 对 于 已 知 项 搜索 ， 目 标 
是 利用 已 知 的 信息 ， 如 作者 或 标题 ， 为 特定 项 找到 完整 的 信息 〈 通 常 是 位 置 )。MARC 记录 能 
很 好 地 支持 这 种 类 型 的 搜索 ， 因 为 它 包含 了 非常 详细 的 书目 信息 。 由 于 编目 记录 是 结构 化 或 半 
结构 化 的 ， 因 此 通过 对 作者 或 标题 字段 进行 专门 搜索 ， 可 以 提高 检索 的 性 能 。 但 编目 记录 对 主 
题 搜 索 的 支持 则 较 差 一 些 ， 因 为 标识 文档 主题 的 可 搜索 文本 可 能 只 是 有 限 的 标题 和 主题 词 。 

图 16-2 所 示 的 搜索 屏幕 显示 了 一 个 学 术 图 书馆 目录 的 典型 界面 ， 它 提供 了 关键 字 相 关 
搜索 、 布 尔 检索 ， 以 及 搜索 特定 字段 的 能 力 (这 是 基本 的 搜索 屏幕 ， 另 外 还 提供 进行 更 高 级 
搜索 的 屏幕 ) 。 
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图 16-2 一 个 学 术 图 书馆 OPAC 的 界面 ， 来 自 不 列 颠 哥伦比亚 大 学 图 书馆 网 站 
关键 字 搜 索 基于 词 的 出 现 频率 和 所 在 字段 的 性 质 对 结果 排序 。 然 而 ， 由 于 只 有 有 限 的 主 
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题 文 本 以 供 搜索 ， 相 关 性 排序 的 效果 可 能 没有 全 文 数据 库 的 结果 令 人 满意 。 对 于 其 他 搜索 选 
项 〈 标 题 、 作 者 等 )， 按 字段 搜索 不 是 在 字段 内 搜索 ， 而 是 需要 从 字段 最 左边 的 位 置 开 始 与 
查询 项 进行 匹配 ， 即 需要 精确 匹配 。 例 如 ， 按 标题 搜索 “信息 检索 ”能 找 出 以 “信息 检索 ” 
开头 的 所 有 标题 ， 但 却 不 会 检索 出 “现代 信息 检索 ”。 出 于 这 个 原因 ， 结 果 列 表 可 作为 浏览 
的 索引 ， 并 以 查询 项 为 访问 点 。 对 于 大 规模 馆藏 ， 这 样 的 帮助 可 能 不 大 。 例 如 ， 输 入 “ 滑 
雪 ” 为 主题 词 进行 搜索 不 会 返回 任何 条 目 ， 因 为 “滑雪 ”并 不 是 一 个 认可 的 主题 词 (虽然 
“滑雪 意外 ”是 ) 而 认可 的 主题 词 是 “滑雪 板 和 滑雪 ”。 甚 至 对 浏览 帮助 也 不 大 ， 因 为 在 
浏览 索引 时 ,“ 滑 雪 ” 和 “滑雪 板 和 滑雪 ”之 间 有 许多 页 主题 词 。 即 使 这 种 简单 的 查询 表格 ， 
也 需要 对 有 关 功 能 有 很 大 程度 的 了 解 ， 这 导致 了 一 些 长 期 存在 的 ， 用 户 与 OPAC 互动 的 问 
题 。 我 们 将 在 16. 2. 4 节 对 此 加 以 讨论 。 

最 近 一 项 创新 是 由 北 卡 罗莱 纳 州 立 大 学 2 实现 的 Endeca® ProFind 导航 引擎 ， 该 导航 引 
擎 常用 于 电子 商务 和 其 他 企业 的 网 站 。 它 们 从 自己 的 ILS 系统 中 导出 MARC 数据 ， 利 用 搜 
索引 擎 建立 索引 ， 并 人 允许 相关 排序 和 分 面 搜索 (faceted search) 。 索 引 在 夜间 更 新 以 加 入 新 
信息 。 从 该 图 书馆 的 网 站 上 可 以 发 现 相 关 的 技术 信息 。 这 些 分 面 来 自 馆 藏 资料 所 标 引 的 国 
会 图 书馆 主题 词 ， 并 人 允许 利用 主题 、 时 段 、 地 域 、 流 派 和 格式 等 分 面 来 改善 原始 搜索 。 在 国 
会 图 书馆 层次 分 类 体系 的 基础 上 ， 该 界面 还 提供 了 一 个 浏览 选项 。 以 上 面 的 例子 来 说 ， 输 入 
关键 字 “ 滑 雪 ” 能 返回 元 数据 中 包括 “滑雪 ”字眼 的 文档 列表 ， 并 按 相关 性 排序 ， 还 可 以 提 
供 一 个 分 面 列表 来 改善 搜索 。 例 如 ，87 篇 文档 使 用 完整 的 主题 词 “滑雪 板 和 滑雪 ”，30 篇 文 
档 使 用 较 罕 的 “越野 滑雪 ”， 用 “娱乐 性 使 用 ” 细 化 搜索 ， 则 可 以 得 到 13 篇 相关 文档 。 用 户 
对 该 目录 的 初步 反响 是 正面 的 。 

显然 ，OPAC 检索 功能 的 更 大 创新 是 必要 的 。 加 州 大 学 的 书目 服务 专责 小 组 建议 图 书馆 
系统 采纳 以 下 的 增强 搜索 和 检索 功能 ， 以 跟 上 当前 数字 环境 的 前 进步 伐 : 

。 提供 用 户 直接 访问 条 目的 功能 。 

。 提供 推荐 功能 。 

。 支持 定制 /个 性 化 。 

。 为 失败 或 不 可 靠 的 搜索 提供 替代 选项 。 

。 为 大 的 搜索 结果 集 提供 更 好 的 导航 。 

。 在 用 户 所 在 场所 提供 书目 服务 。 

。 提供 相关 性 排序 ， 并 利用 全 文 。 

。 对 非 罗马 文字 资料 提供 更 好 的 搜索 (1618, p. 3~p. 4]. 

针对 OPAC 重 构 ， 他 们 还 给 出 了 两 个 建议 : 

。 为 所 有 的 大 学 馆藏 创建 一 个 单一 的 目录 界面 。 

。 支持 对 整个 书目 信息 空间 进行 搜索 。 

这 些 建 议 涉及 图 书馆 检索 系统 的 另 一 个 问题 : 馆藏 存在 巴尔 干 化 〈 和 碎片 化 ) 现象， 表现 
为 离散 的 数据 库 集合 ， 必 须 分 别 搜索 。 





16.2.3 混合 图 书馆 的 整合 
图 16-2 所 示 的 OPAC 界面 是 典型 的 。 它 搜索 已 编目 的 图 书馆 馆藏 资料 ， 但 对 于 图 书馆 
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用 户 可 用 的 其 他 丰富 资源 仅 提供 有 限 访问 。 例 如 ， 界 面 提供 了 电子 期 刊 标题 搜索 的 选项 。 如 
果 能 够 通过 标题 成 功 找到 电子 期 刊 ， 就 可 以 通过 链接 离开 本 站 ， 去 访问 期 刊 全 文 出 版 商 或 供 
应 商 的 网 站 ， 如 果 图 书馆 有 访问 许可 ， 就 能 让 用 户 访问 该 期 刊 。 由 于 电子 期 刊 是 打包 绑 定 或 
者 整合 销售 的 ， 可 能 有 指向 多 个 网 站 的 链接 。 如 果 许 可 证 规定 了 用 户 访问 电子 期 刊 的 权限 
(如 特定 机 构 的 教师 和 学 生 ) ， 就 需要 一 个 验证 步 又 。 在 电子 期 刊 网 站 上 ， 出 版 商 或 整合 者 可 
能 会 提供 搜索 引擎 ， 以 检索 该 期 刊 或 期 刊 组 的 文章 。 然 而 ， 除 非 只 对 特定 的 期 刊 或 期 刊 集 的 
资料 感 兴趣 ， 这 并 不 是 主题 搜索 的 有 效 方式 ， 更 可 取 的 是 搜索 面向 主题 的 数据 库 。 

在 这 个 学 术 图 书馆 的 网 站 上 可 以 访问 的 其 他 类 型 的 资料 包括 电子 书籍 、 政 府 出 版 物 、 数 
字数 据 、 参 考 源 ， 以 及 在 线索 引 和 数据 库 ， 每 个 类 型 都 有 自己 的 链接 。 有 些 资料 是 提供 给 所 
有 人 的 ， 而 有 些 资料 来 源 则 是 有 限制 的 ， 要 求 进行 身份 验证 。 正 如 提供 界面 的 机 构 一 样 ， 由 
主流 研究 机 构 提供 的 丰富 多 样 的 数字 和 印刷 信息 同样 令 人 印象 深刻 。 图 书馆 的 目标 是 : 建立 
跨越 不 同 数 据 类 型 和 数据 集 的 联合 搜索 (federated search) 机 制 。 几 乎 所 有 类 型 的 图 书馆 者 
在 寻求 联合 搜索 产品 ， 这 样 的 产品 现在 已 经 出 现 ， 有 些 作为 主流 ILS 产品 的 一 个 组 成 部 分 ， 
有 些 则 通过 与 现 有 的 图 书馆 系统 同步 的 新 一 代 接口 提供 服务 [255]。 

该 图 书馆 网 站 还 提供 了 一 个 链接 ， 指 向 对 各 种 信息 来 源 提供 联合 搜索 的 谷歌 学 术 搜索 
(Google Scholar) 。 这 些 信息 来 源 包括 学 位 论文 、Eprints、 来 自 机 构 资源 库 的 资料 ， 甚 至 商 
业 出 版 的 电子 期 刊 。 但 是 ， 数 据 库 是 不 全 面 的 ， 因 为 它 依赖 于 Web 上 的 资料 。 这 些 资料 有 
可 能 是 不 向 公众 开放 的 ， 虽 然 出 版 高 可 能 允许 谷歌 的 忠 虫 创建 索引 ， 但 资料 本 身 〈 除 摘要 以 
外 ) 可 能 不 允许 未 授权 的 用 户 浏览 。 谷 歌 学 术 搜 索 的 结果 按 相关 性 排序 ， 但 可 能 是 网 站 、 其 
刊 文章 和 书籍 的 混合 体 。 个 别 图 书馆 可 以 将 它们 的 OpenURL 解析 器 链接 到 结果 列表 ， 人 允许 
授权 用 户 从 搜索 结果 中 直接 链接 到 相关 的 全 文 。 

实现 全 面 的 主题 搜索 的 途径 是 使 用 联机 数据 库 。 如 16. 3. 4 节 所 述 ， 例 子 中 的 图 书馆 界 
面 提供 了 指向 许多 联机 数据 库 的 链接 。 虽 然 有 些 是 免费 的 ， 但 大 部 分 需要 许可 ， 并 仅 限 于 授 
权 用 户 。 其 他 数据 库 则 可 由 馆 员 作为 中 介 代 表 用 户 进行 搜索 。 

为 了 方便 联合 搜索 ， 由 于 引入 了 引用 链接 ， 搜 索 模 块 之 间 有 了 一 定 程度 的 集成 。 例 如 ， 
如 果 在 数据 库 检索 中 发 现 了 用 户 感 兴趣 的 文章 ， 并 且 图 书包 已 经 订阅 了 该 文章 所 在 杂志 的 电 
子 形式 ， 那 么 引用 链接 能 够 将 用 户 从 数据 库 所 在 的 网 站 转 到 该 杂志 的 出 版 商 或 供应 商 的 网 
站 ， 以 访问 该 文章 的 全 文 。 这 是 通过 应 用 OpenURL 标准 实现 的 ， 这 是 一 项 NISO 标准 
(Z39. 88) ， 所 提供 的 语法 可 以 将 元 数据 和 对 象 标识 符 结合 ， 并 将 用 户 指向 解析 器 ， 以 结合 
元 数据 和 用 户 信息 ， 将 特定 用 户 链接 到 适合 的 特定 对 象 。 


16.2.4 OPAC 和 最 终 用 户 


OPAC 设计 者 面临 的 最 大 挑战 也 许 就 是 创建 可 用 的 系统 。 每 种 类 型 的 图 书馆 都 有 
OPAC,， 昌 然 研 究 型 图 书馆 的 用 户 可 能 对 图 书馆 组 织 和 访问 信息 的 惯例 有 所 了 解 ， 但 是 其 他 
地 方 的 最 终 用 户 可 以 是 中 小 学 生 、 大 学 生 ， 或 本 地 公共 图 书馆 的 读者 ， 他 们 很 少 或 根本 没有 
接受 过 使 用 图 书馆 的 正规 训练 ， 有 些 人 只 是 偶尔 使 用 OPAC (Borgman 称 之 为 “终生 新 手 ” 
[232]) 。 然 而 ， 记 录 结 构 (MARC 记录 ) 详细 而 复杂 ， 组 织 结构 〈 例 如 LCSH 和 国会 图 书 
馆 分 类 体系 ) 也 远 远 称 不 上 直观 。 

OPAC 搜索 最 常见 的 类 型 是 主题 搜索 。 用 户 进行 主题 搜索 的 失败 记录 有 据 可 查 [159， 
984]。 常 见 的 失败 记录 是 空 集 (“ 零 结果 ”)， 或 者 是 另 一 个 极端 一 一 信息 超载 ， 即 检 出 的 参 
考 资料 太 多 ， 很 难 彻底 检查 。 对 南洋 理工 大 学 目录 事务 日 志 的 一 项 研究 [984] 非常 典型 。 
研究 表明 超过 2/3 的 搜索 是 关键 字 搜索 。 查 询 平均 长 度 是 2. 82 个 查询 项 ， 只 有 12% 的 查询 
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使 用 了 布尔 运算 符 。 几 乎 1/5 的 查询 没有 返回 任何 结果 。 这 些 问 题 并 不 是 新 出 现 的 。1986 
年 ，Borgman 就 提出 了 这 样 的 问题 : “为 什么 很 难 使 用 联机 目录 ?”10 年 后 ， 她 重新 审视 了 
这 个 问题 :“ 为 什么 仍然 很 难 使 用 联机 目录 ?”[232] 她 认为 原因 是 系统 没有 纳入 有 关 用 户 行 
为 的 知识 ， 要 求 搜索 者 提出 查询 表示 的 负担 太 重 了 。 许 多 研究 人 员 因 此 建议 给 搜索 者 提供 更 
大 的 上 下 文 帮助 [232，554，984] 。 


16.2.5 ILS: 供 应 商 和 产品 


ILS 市 场 是 专门 的 ， 由 占据 市 场 竞争 地 位 的 、 数 量 有 限 的 供应 商 开 发 并 销售 产品 。 虽 然 
很 难 找到 没有 ILS 的 图 书馆 ， 但 图 书馆 仍然 处 在 不 断 变化 的 状态 ， 因 为 旧 的 系统 过 时 了 ， 或 
者 不 再 受 支持 (遗留 系统 )， 需 要 将 系统 升级 或 引入 新 的 系统 。 大 多 数 供应 商 的 目标 是 细 分 
WH: 学 术 图 书馆 、 公 共 图 书馆 、 学 校 图 书馆 和 专业 图 书馆 。 有 关 电 子 资源 管理 的 新 产品 越 
来 越 受 重视 。 表 16-1 列 出 了 三 家 供应 商 的 资料 。Breeding 评述 了 当前 系统 [254]， 并 对 ILS 
系统 的 市 场 和 目前 的 发 展 进行 了 详细 的 讨论 [255]. 

表 16-1 图 书馆 系统 供应 商 
名 称 描述 


SirsiDynix Corporation 最 大 的 ILS 供应 商 ， 系 统 应 用 于 4000 个 图 书馆 。 目 前 销售 Unicorn 和 Symphony 两 
URL: http://www. sirsidynix com/ 个 系统 。 最 近 的 创新 包括 使 用 用 户 模 式 分 析 软 件 、 联 合 搜索 选项 和 OpenURL 解析 


目前 提供 ILS 的 第 二 大 公司 ， 它 们 的 Millennium 系统 为 学 术 、 人 公众、 专业 和 学 
校 的 图 书馆 提供 服务 。 目 前 的 功能 包括 相关 性 排序 、 登 录 认 证 、 增 强 型 门户 功能 ， 
以 及 远程 教育 课程 和 机 构 资 源 库 管理 模块 
Ex Libris 一 个 面向 学 术 图 书馆 及 联盟 的 大 公司 ， 销 售 ALEPH 和 Voyager 系统 ，Ex Libris 也 
URL: http://www. exlibrisgroup. com/ ”提供 MetaLib 联合 搜索 系统 和 Primo 高 级 接口 。 首 创 了 跨 数 据 库 的 链接 引用 机 制 














Innovative Interfaces, Inc. (III) 
URL; http://www. iii. com/ 





尽管 早期 OPAC 系统 是 内 部 开发 的 ， 有 时 其 至 是 由 热情 的 业余 人 员 花 费 相当 多 的 时 间 
和 金钱 、 冒 着 失败 的 重大 风险 开发 的 ， 但 今天 的 图 书馆 环境 支持 第 三 方 开 发 的 统 包 系 统 ， 由 
少数 企业 和 产品 主导 整个 市 场 ， 尤 其 是 较 大 的 图 书馆 。MELVYL、Okapi 和 Cheshire 等 系 
统 主要 是 以 研究 为 主 ， 在 学 术 图 书馆 使 用 ， 因 此 在 初始 经 费 使 用 完 之 后 不 能 经 常 性 地 进行 后 
续 维 护 。 然 而 ， 有 些 图 书馆 对 于 ILS 开源 软件 的 兴趣 正在 增加 ， 虽 然 对 于 开发 成 本 、 支 持 、 
可 靠 性 和 功能 仍 有 疑虑 ， 但 他 们 已 开始 尝试 现 有 的 开源 系统 [253]. Koha 和 Evergreen 
《如 表 16-2 所 示 ) 是 两 个 交付 使 用 的 开源 图 书馆 系统 ， 有 着 不 断 增长 的 用 户 群 。Evergreen 
最 初 为 佐治 亚 州 公共 图 书馆 开发 ， 各 种 实现 版 本 (Pines, Sitka) 正在 由 加 拿 大 和 美国 的 图 
书馆 联盟 开发 实现 。Koha 软件 起 初 由 新 西 兰 图 书馆 联盟 开发 ， 正 在 由 国际 程序 员 进 一 步 开 
发 。 虽 然 这些 软 件 包 是 开源 的 ， 但 因为 实现 和 进一步 开发 的 需要 ， 也 提供 商业 支持 。 


表 16-2 图 书馆 开源 软件 


名 称 描述 





Evergreen 是 开源 的 、 联 盟 质 量 的 图 书馆 自动 化 软件 ， 起 初 由 佐治 亚 州 公共 
图 书馆 为 PINES 网 络 开 发 ， 现 已 用 于 美国 和 加 拿 大 各 地 的 数 百 家 图 书馆 。Ev- 
ergreen 包括 流通 、 编 目 、OPAC 以 及 统计 报告 等 模块 ， 采 购 和 期 刊 模块 也 在 计 
Rp. Evergreen 的 开发 者 已 经 成 立 了 Equinox 软件 公司 ， 提 供 支持 和 开发 。 
Evergreen 的 其 他 实现 包括 Pines 和 Sitka (来 自 Evergreen 网 站 ) 


Evergreen 
URL; http: //evergreen-ils. org/ 


最 初 是 在 新 西 兰 开发 ， 是 第 一 个 开放 源码 的 图 书馆 集成 系统 。Koha 包括 流 


Koha 通 、 编 目 、 采 购 、 期 刊 、 预 订 、 读 者 管理 和 分 支 机 构 联 系 等 许多 模块 。Koha 
URL: http://www. koha. org/ 在 世界 各 地 各 种 规模 的 图 书馆 中 使 用 ， 是 一 个 真正 的 企业 级 ILS， 具 有 全 面 的 
功能 ， 包 括 基 本 选项 或 高 级 选项 。 它 符合 主流 图 书馆 标准 OR A Koha 网 站 ) 
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随 着 图 书馆 读者 逐渐 成 为 经 验 丰 富 的 Web 用 户 ， 他 们 对 搜索 和 图 书馆 功能 的 期 望 值 也 
在 增加 。 作 为 社交 软件 和 网 络 站 点 的 用 户 ， 他 们 习惯 于 利用 CiteULikeS . BibSonomy® 和 
LibraryThinge 等 网 站 来 给 他 们 自己 的 资源 加 标签 和 编目 。 

谷歌 图 书 搜索 (Google Book Search)@ 带 来 了 对 深度 搜索 的 期 望 ， 即 搜索 书籍 全 文 ， 而 
不 是 简单 的 书目 描述 。 为 了 与 这 些 热门 网 站 竞争 ， 图 书馆 推出 新 的 界面 ， 提 供 了 Web 2. 0 
功能 ， 例 如 RSS 订阅 、 用 户 标注 和 评论 选项 、 联 合 搜索 、 导 航 帮 助 、 相 关 排 序 结 果 和 更 强 
的 视觉 吸引 力 [255]。 虽 然 这 些 改 进 界 面 可 能 是 现 有 ILS 系统 的 一 部 分 ， 但 它们 日 益 成 为 独 
立 产品 ， 并 可 作为 使 用 图 书馆 ILS 的 前 端 。 

AquaBrowser@ 就 是 这 样 一 个 例子 ， 它 提供 的 功能 包括 联合 搜索 、RSS 订阅 ， 以 及 “我 
的 发 现 ”(My Discoveries) 模块 ， 允 许 用 户 给 图 书馆 的 资料 加 标签 和 评论 。 图 书馆 可 以 用 目 
录 和 评论 等 附加 内 容 来 丰富 书目 描述 。 导 航 工具 包括 分 面 搜索 和 关键 字 云 (word cloud) 等 
可 视 化 工具 。 已 有 的 ILS 公司 也 正在 开发 具有 高 级 功能 的 界面 ， 例 如 Ex Libris 的 Primo, 


Innovative Interfaces 的 Encore。 


16.3 ”信息 检索 系统 与 文档 数据 库 


图 书馆 为 各 种 各 样 外 部 产品 的 摘要 和 索引 服务 提供 访问 。 这 些 产 品 一 开始 是 印刷 形式 ， 
图 书馆 蔡 感 兴趣 的 用 户 订阅 。 它 们 的 电子 形式 通常 称 为 数据 库 $: 如 果 包 含 文章 的 引用 〈 通 
常 为 摘要 形式 〉 则 称 为 书目 数据 库 ; 如果 包含 文章 本 身 则 称 为 文档 或 全 文 数据 库 。 由 于 存在 
电子 数据 库 ， 图 书馆 可 以 有 这 样 的 选择 ， 在 远程 站 点 搜索 由 生产 商 或 其 他 供 货 商 提供 的 数据 
E, 或 者 得 到 许可 后 把 它们 安装 在 本 地 。 今 天 的 图 书馆 考虑 成 本 、 用 途 和 格式 ， 提 供 这 些 选 
择 的 组 合 。 

由 于 书目 数据 库 含 有 大 量 的 文本 信息 ， 因 此 其 信息 检索 系统 的 初步 开发 受到 了 政府 实 
验 室 的 科研 项 目 支持 ， 目 标 用 户 是 训练 有 素 的 搜索 中 介 。 计 算 机 书目 信息 检索 在 20 世纪 
50 年 代 进行 了 首次 展示 ，1964 年 美国 国立 医学 图 书馆 (National Library of Medicine, 
NLM) 开始 使 用 批 处 理 。 同 样 ， 在 20 世纪 60 年 代 ， 联 邦 政府 资助 了 在 线 系统 的 原型 开 
发 项 目 ， 并 在 政府 研究 实验 室 得 以 实现 。 第 一 个 这 样 的 产品 是 洛克 希 德 (Lockheed 公司 
的 DIALOG 系统 ， 它 首先 为 美国 航空 航天 局 (National Aeronautics and Space Administra- 
tion, NASA) 实现 ， 随 后 为 其 他 政府 部 门 服务 ， 并 在 20 世纪 70 年 代 初 进行 了 商业 化 ， 
所 有 权 也 发 生 了 多 次 改变 [243]。 今 天 的 DIALOG 系统 通过 互联 网 提供 全 球 服务 ， 数 据 
库 来 自 图 书馆 、 其 他 组 织 机 构 以 及 个 人 。 

除 少数 外 ， 数 据 库 供应 商 并 不 直接 生产 信息 ， 而 是 通过 共同 搜索 界面 为 用 户 提 供 搜索 服 
务 。 数 据 库 供应 商 从 信息 生产 高 那里 获得 数据 库 使 用 许可 ， 加 工 数据 库 ， 引 入 尽 可 能 多 的 标 
准 化 手段 〈 如 标准 的 字段 名 ) ， 建 立 倒 排 索引 ， 安 装 数据 库 ， 创 建 标准 格式 的 数据 库 描述 和 
搜索 者 帮助 ， 并 为 客户 提供 培训 课程 〈 见 图 16-4) 。 他 们 通过 设立 多 数据 库 的 通用 入 口 ， 提 


http://www. citeulike. org/ 。 

http://www. bibsonomy. org. 

http://www. librarything. com/, 

http: //books. google. com/. 

http: //www. aquabrowser. com, . 

文档 数据 库 的 开发 商 和 供应 商 通 常 把 他 们 的 产品 称 为 “数据 库 ”， 明 然 它们 负 乏 关系 数据 库 的 表 结 构 ， 而 是 由 书 
目 信 息 和 文档 全 文 组 成 。 本 章 采取 了 这 种 提 法 。 
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供 增值 服务 。 数 据 库 供 应 商 还 可 以 提供 跨 数据 库 的 搜索 。 例 如 ，DIALOG 允许 搜索 者 同时 
搜索 预定 的 数据 库 或 者 自己 选择 的 一 组 数据 库 ， 创 建 一 个 合并 的 参考 集 ， 然 后 再 删除 重复 
记录 。 


16. 3. 1 书目 和 全 文 数据 库 


商业 在 线 检索 系统 的 历史 起 源 于 电子 书目 信息 数据 库 的 创建 。 印 刷 形 式 的 文摘 和 索引 工 
AE 19 世纪 出 现 ， 在 二 十 世纪 则 越 来 越 普遍 。 专 业 团体 、 商 业 企 业 和 政府 机 构 作 为 出 版 商 ， 
从 全 世界 的 文献 中 选择 相关 资料 ， 创 建 书 目 记 录 ， 并 提供 摘要 和 索引 信息 。 这 些 数据 库 主 要 
集中 在 科学 领域 ， 如 《Chemical Abstracts》( 化 学 文摘 ), «Biological Abstracts》( 生 物 学 文 
摘 ) 和 《Engineering Index》( 工 程 索 引 )， 但 人 文学 科 和 社会 科学 的 产品 也 很 快 出 现 了 ， 例 
如 《Historical Abstracts》( 历 史 文 摘 ) Al (PsycINFO) (心理 学 文摘 ) 数据 库 。 

随 着 文摘 和 索引 的 出 版 商 转 向 电脑 辅助 排版 并 印刷 它们 的 产品 ， 信 息 磁带 开始 用 于 信息 
检索 目的 。 今 天 ， 几 乎 所 有 的 印刷 文摘 和 索引 产品 都 有 电子 形式 ， 许 多 产品 甚至 只 有 电子 形 
式 ， 而 没有 印刷 版 本 。 由 于 存储 成 本 大 幅 下 降 ， 许 多 电子 数据 库 已 经 扩大 到 包括 不 仅 文 档 的 
书目 信息 ， 还 包含 文档 本 身 的 文本 。 这 样 的 数据 库 称 为 全 文 数据 库 ， 它 们 包括 期 刊 文章 和 报 
纸 数 据 库 ， 以 及 作为 参考 资料 的 数据 库 ， 例 如 百科 全 书 和 目录 。 表 16-3 给 出 了 一 些 DIA- 
LOG 提供 的 常用 数据 库 的 特征 。 


表 16-3 ”DIALOG 收录 的 多 个 著名 数据 库 的 特征 








名 称 覆盖 范围 规模 
CA SEARCH; 、 2000 多 万 条 记录 ， 每 
«Chemical Abstracts) (化 学 文摘 ) 全 世界 化 学 及 应 用 文献 的 书目 记录 ， 包 括 专利 周 更 新 18 000 条 
生命 科学 (特别 是 生物 医药 领域 ) 书目 记录 ， 包 括 
MEDLINE 临床 和 实验 医学 、 牙 医学 、 护 理学 、 药 理学 、 精 神 病 cnhack f 


学 和 兽医 学 等 。 它 对 全 世界 4300 种 期 刊 建立 索引 
(New York) (纽约 时 报 ) 全文， 包括 1980 年 至 今 。 “280 多 万 条 记录 ， 每 天 
的 杂志 、 书 评 和 星期 日 专栏 更 新 
心理 学 和 相关 行为 科学 与 社会 科学 国际 文献 的 书目 , 
《PsycINFO》 心 理学 文摘 数据 库 。” 记 录 库 ,包括 精 神 病 学 、 社 会 学 、 人 类 学 、 教 育 学 、 woe 每 周 更 
药理 学 和 语言 学 ， 覆盖 1700 多 种 期 刊 


NY Times 


16.3.2 ”数据库 记录 的 内 容 


在 一 般 情况 下 ， 书 目 数据 库 生 产 成 本 昂贵 ， 因 为 它们 需要 经 过 严格 的 挑选 ， 分 析 所 覆盖 
的 文档 。 有 些 数据 库 涵盖 一 组 特定 期 刊 的 资料 ， 另 外 一 些 则 试图 在 规定 的 主题 范围 内 全 面 搜 
集 全 世界 各 种 格式 的 文献 。 每 个 条 目 必 须 首 先 检查 是 否 与 数据 库 目 标 相 关 ， 然 后 索引 、 摘 
录 ， 并 存 人 系统 中 。 

每 个 书目 数据 库 是 一 个 独特 的 产品 ， 专 门 为 满足 特定 研究 领域 及 其 用 户 组 的 信息 需求 而 
设计 。 因 此 ， 不 存在 一 个 统一 的 数据 库 记 录 内 容 标准 。 通 常情 况 下 ， 它 包含 记录 键 和 书目 数 
据 等 标记 信息 ， 如 作者 、 标 题 、 文 档 来 源 、 摘 要 、 索 引 词 或 分 类 代码 等 主题 标识 符 。 对 于 全 
文 数据 库 ， 也 包括 文档 的 文本 。 图 16-3 和 图 16-4 分 别 显示 《BIOSIS PREVIEWS》〈 生 物 学 
文摘 ) 和 《Historical Abstracts》 的 数据 库 记 录 样 本 。 请 注意 ， 主 题 描述 使 用 的 词汇 表 〈 描 
述 符 和 代码 ) 非常 依赖 于 研究 领域 〈 在 这 种 情况 下 是 生物 学 和 历史 ) 。 
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图 16-4 «Historical Abstracts》 数 据 库 记 录 样 本 ， 来 自 DIALOG 


如 这 些 数据 库 记录 所 示 ， 它 们 包含 的 主题 信息 有 两 种 类 型 : 所 谓 的 “自然 语言 ”或 “ 自 
由 文本 ”信息 ， 包 括 在 标题 或 摘要 字段 中 ， 由 索引 人 员 标 引 的 索引 项 或 受 控 词汇 表 项 。 大 多 
数 数据 库 在 描述 符 字 段 中 包含 索引 项 ， 这 些 索 引 项 通常 来 自 数据 库 相 关 的 索引 词典 〈 一 种 正 
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式 的 结构 化 索引 词汇 表 )。 一 个 例子 是 专门 为 心理 学 领域 主要 数据 库 PsycINFO 开发 的 
《Psychological Index Terms》 (心理 索引 词汇 词典 ) 。 其 他 类 型 代码 或 索引 的 使 用 与 特定 的 数 
据 库 有 关 (AMi, (BIOSIS PREVIEWS) 的 生物 系统 学 代码 , (Historical Abstracts) (历史 
文摘 ) 的 历史 时 段 代 码 )。 主 题 项 标 引 是 数据 库 的 主要 生产 成 本 之 一 。 虽 然 目前 使 用 中 的 系 
统 只 是 进行 “机 器 辅助 >， 而 不 是 完全 的 自动 索引 ， 但 是 能 够 使 用 恰当 受 控 词 汇 的 自动 索引 
系统 对 数据 库 生 产 商 是 很 有 价值 的 。 

有 关 “ 自 由 文本 ”和 受 控 词汇 对 检索 性 能 相对 价值 的 研究 课题 很 早 就 已 经 开始 ， 并 且 持 
续 到 现在 。20 世纪 60 年 代 的 Cranfield 研究 就 已 涉及 这 个 课题 [1508]， 直 到 现在 仍 有 研究 
人 员 持 续 加 以 研究 。Lancaster [972] 和 Rowley [1390] 对 这 项 研究 进行 了 很 好 的 综述 。 
明确 的 答案 还 没有 找到 ， 但 后 来 的 研究 似乎 表明 两 类 索引 的 互补 可 以 提升 检索 性 能 。 


16.3.3 联机 产业 : 数据 库 供 应 商 


如 表 16-4 所 示 ， 文 档 数 据 库 的 生产 商 和 供应 商 之 间 存 在 着 一 种 协作 关系 。 在 一 般 情况 
下 ， 数 据 库 生产 商 制作 产品 并 授权 给 供应 商 。 供 应 商 〈 也 可 以 称 为 聚合 者 或 搜索 服务 提供 
者 )， 向 客户 提供 搜索 软件 和 访问 ， 以 便 他 们 能 够 从 单一 来 源 搜 索 多 个 数据 库 。 


表 16-4 ”数据库 生产 商 和 供应 商 的 角色 





数据 库 生 产 商 数据 库 供 应 商 
设计 数据 库 结构 开发 搜索 软件 
收集 范围 内 的 文献 从 生产 者 获得 数据 库 许 可 
输入 标准 形式 的 书目 记录 对 记录 结构 进行 标准 化 如 有 可 能 ) 
制作 摘要 (或 者 编辑 作者 的 摘要 ) 装载 数据 库 ， 创 建 倒 排 索引 
用 受 控 词汇 表 标 引 更 新 数据 库 〈 每 天 、 每 周 ， 或 者 每 月 ) 
按 固定 间隔 更 新 文件 为 搜索 者 提供 文档 
销售 备份 文件 和 更 新 给 供应 商 销售 给 客户 

提供 服务 和 客户 培训 


经 常 有 人 提 到 联机 数据 库 产业 ， 因 为 数据 库 的 生产 通常 是 由 企业 、 专 业 学 会 或 政府 在 以 
营利 或 者 收回 成 本 的 基础 上 进行 。 这 些 数 据 库 生 产 商 创建 数据 库 产品 ， 通 常 由 第 三 方 或 数据 
库 供应 商 出 售 或 租赁 给 图 书馆 。 数 据 库 供应 商 的 角色 是 从 生产 者 获得 数据 库 的 使 用 许可 ， 并 
给 用 户 提供 增值 服务 。 数 据 库 供应 商 提供 了 某 种 程度 的 标准 化 记录 格式 ， 创 建 索 引 (以 倒 排 
索引 形式 )， 并 为 搜索 多 个 数据 库 提供 了 共同 界面 。 著 名 的 数据 库 厂商 有 DIALOG, Lexis/ 
Nexis, OCLC 和 H. W. Wilson 等 ， 表 16-5 介绍 了 他 们 的 基本 情况 。 有 些 数据 库 生 产 商 自 己 
也 提供 搜索 服务 ， 造 成 了 数据 库 产 业 某 种 程度 上 的 纵向 一 体 化 ， 例 如 美国 国立 医学 图 书馆 ， 
通过 Web 免费 提供 其 Medline 数据 库 ，H. W. Wilson 公司 则 销售 自 有 的 系列 数据 库 。 

表 16-5 一 些 数据 库 供 应 商 
名 称 描 R 


DIALOG 的 自我 描述 是 “提供 关键 信息 ， 推 动 科学 、 工 程 、 商 业 和 知识 产 
KARRERA.” DIALOG 的 600 多 个 数据 库 和 15 亿 独 特 记录 是 Deep 
Web 的 一 部 分 。 它 提供 了 文档 全 文 的 OpenURL 链接 


LEXIS-NEXIS 销售 法 律 和 商业 全 文 数据 库 。 它 们 提供 了 超过 50 亿 的 可 搜 

Lexis Nexis 索 文档 ， 和 覆盖 四 万 多 个 法 律 、 新 闻 和 商业 来 源 ， 并 声称 访问 可 靠 率 高 达 

URL; http://www. lexisnexis. com 99.99%, LEXIS 提供 法 律 研 究 产品 ， 包 括 州 和 联邦 的 判例 法 、 法 律 和 法 规 
的 访问 ， 而 NEXIS 涵盖 新 闻 和 商业 来 源 





The DIALOG Corporation 
URL; http://www. dialog. com 
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( 续 ) 
名 称 H £ 
联机 计算 机 图 书馆 中 心 (Online Computer Library Center, OCLC) 起 先是 
OCLC 一 个 图 书馆 资料 合作 编目 的 书目 服务 ， 现 在 可 以 提供 超过 80 多 个 数据 库 和 
URL: http://www. ocle. org/firstsearch/ 成 千 上 万 在 线 期 刊 全 文 图 像 的 访问 。 其 特点 包括 指向 馆藏 文档 的 链接 ， 以 及 
馆 际 互 借 模块 
H. W. Wilson 于 1898 年 开始 制作 印刷 的 索引 ， 现 在 为 公共 图 书馆 、 学 校 和 
H. W. Wilson Company 高 校 图 书馆 市 场 提供 了 70 多 个 数据 库 。 该 公司 不 仅 制作 数据 库 产品 ， 而 且 
URL; http://www. hwwilson. com/ 提供 对 它们 的 访问 。 通 过 图 书馆 网 页 上 的 一 个 链接 、 可 以 使 用 WilsonWeb 系 
统 搜索 其 数据 库 


这 些 主 要 的 商业 服务 有 一 个 很 重要 的 方面 。 它 们 的 数据 库 规 模 非 常 大 ， 需 要 向 许多 用 户 
同时 提供 快速 可 靠 的 服务 Lexis/Nexis 这 样 描述 它们 的 计算 复杂 度 [1017]: 数据 库 包括 近 
50 亿 个 文档 ， 有 500 万 订户 ， 每 年 有 超过 10 亿 的 搜索 .它们 在 6~ 10 秒 钟 内 返回 答案 集 ， 
并 声称 平均 可 用 性 和 可 靠 性 大 于 99. 99% 。 

除了 少数 外 ,例如 政府 机 构 所 制作 的 数据 库 ， 大 多 数 数据 库 都 是 在 到 利 的 基础 上 生产 并 
提供 访问 的 。 原 有 的 定价 模式 是 根据 使 用 情况 、 连 接 到 特定 的 数据 库 的 时 间 和 打印 的 书目 记 
录 而 收费 。 这 就 带 来 了 对 专业 中 介 的 需求 ， 他 们 可 以 在 最 短 的 时 间 内 进行 有 效 的 搜索 。 更 高 
的 连接 带宽 导致 收费 依据 从 连接 时 间 变 成 了 处 理 时 间 。 最 终 用 户 的 搜索 行为 也 发 生 了 改变 ， 
从 图 书馆 网 站 访问 数据 库 ， 以 及 期 望 提供 图 书馆 资源 链接 ， 转 向 了 基于 数据 库 许 可 和 订阅 的 
模式 。 


16.3.4 来 自 文档 数据 库 的 信息 检索 


早期 在 线 检索 服务 的 功能 主要 基于 布尔 检索 模型 ， 然 而 ， 在 信息 检索 领域 的 研究 重点 是 
通过 非 布尔 模型 提高 检索 性 能 ， 如 向 量 空间 模型 、 概 率 模型 和 语言 模型 。 许 多 因素 导致 了 这 
些 服务 选择 布尔 模型 。 当 时 的 索引 和 检索 研究 ， 尤 其 是 Cranfield 研究 ， 进 行 了 一 系列 自然 
语言 和 控制 词汇 的 比较 实验 ， 发 现 “自然 语言 ”检索 的 性 能 可 以 与 人 工 索 引 检索 性 能 水 平 相 
媲美 。 有 些 图 书馆 已 经 使 用 边缘 切口 卡片 和 光 重 合 比 孔 索引 卡 等 工具 在 人 工 检索 中 实现 布尔 
逻辑 ， 这 似乎 提供 了 基于 文档 中 词 的 组 合 实施 检索 的 自然 机 制 。 当 时 ， 其 他 检索 模型 的 研究 
尚 处 于 起 步 阶段 ， 尚 未 在 大 型 数据 库 上 证 明 其 有 效 性 。 或 许 最 重要 的 是 ， 当 时 的 计算 机 只 有 
有 限 的 处 理 和 存储 能 力 ， 在 线 环 境 虽 然 足以 支持 布尔 检索 所 需要 的 倒 排 索 引 结构 和 逻辑 运 
算 ， 却 无 法 为 其 他 更 加 计算 密集 的 检索 模型 提供 实时 检索 性 能 。 

尽管 信息 检索 研究 表明 ， 其 他 模型 可 能 提供 更 好 的 检索 性 能 ， 但 布尔 检索 一 直 是 数据 库 
供应 商 提供 的 最 常见 的 访问 方式 。 作 为 一 种 替代 的 访问 方式 ， 近 年 来 的 一 些 系 统 已 经 增加 了 
自然 语言 输入 和 结果 排序 功能 。 布 尔 检索 占据 主导 地 位 的 原因 包括 经 济 上 的 考虑 〈 搜 索 软 件 
和 数据 库 结 构 进 行 重大 改变 的 成 本 )、 服 务 问题 (客户 群 已 经 按照 现 有 系统 培训 )， 以 及 替代 
产品 在 操作 环境 中 尚 缺 乏 证 据 支持 其 可 行 性 [1318]. 虽然 现在 的 商业 系统 提供 了 一 些 自然 
语言 搜索 能 力 ， 但 其 进展 似乎 不 大 ， 在 这 些 系 统 中 ， 最 常用 的 仍然 是 布尔 查询 ， 特 别 对 搜索 
专家 而 言 [306]. 

在 一 般 情 况 下 ， 数 据 库 供应 商 使 用 针对 具体 系统 的 专用 搜索 软件 ， 因 此 搜索 多 个 系统 的 
专业 人 员 必 须 了 解 每 个 系统 不 同 的 命令 词汇 。 数 据 库 供应 商 也 提供 Web 界面 ， 这 样 就 无 须 
学 习 命令 语言 。 但 经 验 丰 富 的 搜索 者 经 常会 发 现 界面 响应 缓慢 、 缺 乏 所 需要 的 功能 ， 因 此 更 
喜欢 在 命令 模式 下 运行 CLA 16-5 DIALOG 的 Web 浏览 器 例子 ,以 及 图 16-6 所 示 的 命令 
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驱动 搜索 ) 。 通 用 命令 语言 的 一 个 标准 是 NISO Z39. 58 或 ISO 8777, 但 NISO 标准 后 来 被 取 
消 ， 或 许 是 因为 其 功能 可 以 通过 Web 界面 提供 。 
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图 16-5 DIALOG/Web (基于 表单 的 搜索 屏幕 ) 


书目 信息 检索 系统 的 基本 功能 是 搜索 单一 的 项 或 词组 ， 或 者 它们 的 布尔 组 合 ， 以 创建 可 
进一步 操作 的 文档 集 ， 然 后 打印 或 显示 。 通 常情 况 下 ， 系 统 也 提供 邻近 操作 选项 ， 以 定义 查 
询 项 之 间 的 关系 (A 和 B 相 邻 、A 在 B 左右 N 个 词 范围 内 等 )， 并 指定 查询 项 在 记录 中 的 
WH (A 出 现在 标题 字段 、B 出 现在 描述 符 字 段 等 )， 在 这 种 情况 下 ， 倒 排 索引 中 位 置信 息 
的 存储 量 将 更 大 。 其 他 可 用 的 功能 包括 浏览 数据 库 索 引 以 选择 查询 项 ， 或 者 根据 数据 库 同 义 
词典 项 间 关 系 发 现 候选 查询 项 。 与 特定 类 别 数 据 库 有 关 的 、 更 复杂 的 其 他 功能 也 是 可 用 的 ， 
例如 在 化 学 数据 库 中 搜索 化 合 物 结构 的 功能 。 

在 搜索 者 输入 查询 项 后 ， 系 统 将 创建 由 包含 这 个 项 的 所 有 文档 组 成 的 相应 “集合”"， 并 
分 配 集合 编号 给 搜索 者 使 用 。 在 临时 存储 中 ， 保 留 多 个 检索 文档 集 。 这 些 集 合 编号 在 发 出 搜 
索 命 令 时 作为 文档 集 的 代表 。 布 尔 逻 辑 可 以 用 来 处 理 现 有 集合。 显示 命令 允许 搜索 者 查阅 搜 
索 历史 记录 ， 并 返回 以 前 的 结果 和 集 。 根 据 查 询 项 或 表达 式 返 回 的 结果 集 大 小 ， 并 查阅 相关 文 
档 及 其 索引 ， 搜 索 者 不 断 修 改 搜索 ， 直 到 他 们 党 得 已 经 获得 最 好 的 结果 。 这 种 结果 集 的 迭代 
改进 过 程 是 科学 也 是 艺术 ， 其 成 功 高 度 依赖 于 搜索 者 的 技能 和 学 科 知 识 。 

图 16-6 显示 了 一 个 典型 的 DIALOG 布尔 搜索 。 在 此 搜索 中 ， 用 户 请 求 一 个 特定 的 数据 
Æ (文件 4，INSPEC: The Database for Physics, Electronics and Computing (物理 、 电 子 
和 计算 机 数据 库 ))， 然 后 使 用 “Select” 或 “S” 命 令 来 创建 记录 集 。 集 合 1 包含 标题 、 摘 要 
或 描述 符 字 有 段 的 任意 位 置 含 有 “WWW” 或 “Web” 的 所 有 文档 。“(w)” 或 “()” 表 示 邻 
近 操 作 ， 所 以 集合 2 (S2) 将 包括 含有 “information foraging” 或 “information scent” 的 所 
有 记录 。 这 两 个 集合 进行 布尔 与 CAND) 操作 ， 得 到 23 条 记录 ， 再 进一步 限制 到 标题 (ti) 
RA (de) 字段 包含 查询 项 的 记录 ， 最 终 得 到 18 条 以 供 审阅 。 同 一 个 搜索 可 同时 在 多 
个 数据 库 中 进行 ， 并 可 用 重复 数据 删除 命令 来 消除 重复 记录 。 
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BEGIN 4 
File 4: INSPEC 1983-2006/Jun y4 
(c) 2006 Institution of Electrical Engineers 


Set Items Description 


WUW OR WEB 
8819 UVV 
59907 WEB 
51 63381 WUW OR VEB 


INFORMATION () (FORAGING OR SCENT) 
566959 INFORMATION 
435 FORAGING 
79 SCENT 
32 35 INFORMATION () (FORAGING OR SCENT) 


51 AND S2 
63381 
35 
33 23 


$3/T1,DE 
S4 18 S3/TI,DE 








图 16-6 一 个 DIALOG 搜索 〈 命 令 行 界面 ) 


为 了 确保 市 场地 位 ， 数 据 库 供应 商 开 发 可 能 对 客户 群 有 价值 的 新 功能 ， 并 添加 新 的 数据 
库 产品 。 在 一 般 情况 下 ， 这 些 新 功能 将 扩充 到 现 有 的 布尔 搜索 引擎 一 一 重复 记录 的 消除 、 检 
索 集 内 的 复杂 排序 等 。 然 而 ， 几 个 主要 的 数据 库 供 应 商 在 他 们 的 系统 中 加 入 了 “自然 语言 ” 
搜索 功能 。 例 如 ，DIALOG 提供 了 TARGET，LEXIS-NEXIS 有 一 个 名 为 FREESTYLE 的 
AR. FREESTYLE 接受 自然 语言 查询 ，TARGET 要 求 搜索 者 删除 对 搜索 无 用 的 查询 项 。 
这 两 个 系统 都 提供 检索 文档 的 排序 列表 。 这 些 “ 自 然 语言 ”系统 是 标准 布尔 搜索 的 辅助 模 
块 ， 并 不 是 要 取代 它 。 一 个 TARGET 的 搜索 例子 如 图 16-7 所 示 。 

这 个 搜索 针对 BIOSIS 数据 库 。 系 统 首 先 向 搜索 者 提供 了 一 系列 指令 ， 以 便 处 理 短语 
和 同义词 等 。 在 “?” 提 示 符 之 后 ， 搜 索 者 输入 一 系列 查询 项 〈 最 多 25 个 )， 在 这 个 例子 
中 是 “komodo dragon food diet nutrition”。 默 认 情 况 下 ， 搜 索 限 制 在 近 两 年 的 文档 内 ， 并 
按 排 序 显 示 50 个 得 分 最 高 的 纪录 。 这 个 例子 对 查询 项 没有 任何 跟 制 ， 但 屏幕 上 的 说 明显 
示 ， 可 以 对 查询 项 进行 布尔 逻辑 操作 ， 产 生 一 个 带 排序 功能 的 布尔 搜索 结果 。 搜 索 者 显 
示 了 排 在 最 前 列 的 三 篇 文档 ， 请 注意 ， 这 些 文档 都 不 包含 “komodo” 或 “dragon”， 但 根 
据 TF-IDF 加 权 方 法 ， 含 有 这 些 项 的 文档 应 该 排 在 更 前 列 。 这 表明 排序 算法 的 局 限 性 ， 另 
外 ,数据库 也 仅 限 于 近 几 年 ， 这 些 或 许可 以 解释 为 什么 这 种 自然 语言 功能 并 不 更 受 欢 迎 。 

数据 库 生 产 商 和 供应 商 提供 的 服务 成 本 很 高 ， 他 们 发 现 自 己 在 与 Web 竞争 ， 而 很 多 用 
FUN Web 虽然 有 些 杂 乱 无 章 ， 但 却 是 现成 的 免费 信息 。 信 息 产 业 的 供应 商 被 迫 将 目标 用 
户 限 定 于 有 需要 的 、 并 愿意 为 经 过 系统 组 织 的 高 品质 信息 支付 费用 的 用 户 ， 他 们 通常 来 自 研 
究 和 商业 环境 。 
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? b58 
File 55:Biosis Previews(R) 1993-2007/Mar W2 (c) 2007 The Thomson Corporation 


? target 
Input search terms separated by spaces (e.g., DOG CAT FOOD). You can 
enhance your TARGET search with the following options: 
- PHRASES are enclosed in single quotes (e.g., ’DOG FOOD’) 
- SYNONYMS are enclosed in parentheses (e.g., (DOG CANINE)) 
-~ SPELLING variations are indicated with a ? (e.g., DOG? to search DOG, DOGS) 
~ Terms that MUST be present are flagged with an asterisk (e.g., DOG *F00D) 


oO 
L] 


QUIT H = HELP 

? komodo dragon food diet nutrition 

Your search will retrieve up to 50 of the statistically most relevant records. 
Searching 2006-2007 records only ...Processing Complete 


Your search retrieved 50 records. 


? [viewing records; customized browse requested] 


Indirect estimates of net acid excretion and net nate of endogenous 
non-carbonic acid production in the Young British population: analysis 
of the National *Diet and *Nutrition Survey aged 4-18 years. 

- Statistica] Relevance: 93\% 


-~ Term Frequency: KOMODO - O ; DRAGON - O ; FOOD - 1 ; DIET ~ 3 ; NUTRITION - 3 


Vegetarian *nutrition : Preventive potential and possible risks. 
Part 2: Animal foods and recommendations 


ORIGINAL LANGUAGE TITLE: Vegetarische Ernahrung: Praventives Potenzial und 
mogliche Risiken 
Teil 2: Lebensmittel tierischer Herkunft und Empfehlungen 


~ Statistical Relevance: 88\% 





- Term Frequency: KOMODO - O ; DRAGON - O ; FOOD - 2 ; DIET - 6 ; NUTRITION - 3 


A pair-feeding study reveals that a YS antagonist causes weight loss in *diet 
induced obese mice by modulating *food intake and energy expenditure 


- Statistical Relevance: 87\% 








| Term Frequency: KOMODO - O ; DRAGON - O ; FOOD - 3 ; DIET - 2 ; NUTRITION - 1 


”| 


16-7 DIALOG 的 一 个 TARGET 搜索 





16.4 组 织 机 构 内 部 的 信息 检索 


与 图 书馆 一 样 ， 公 司 和 非 盘 利 性 组 织 需要 处 理 许多 不 同 媒体 和 不 同 格式 的 文档 ， 很 多 信 
息 是 独特 的 和 专 有 的 。 有 些 信息 资料 可 能 存储 在 关系 数据 库 中 ， 但 大 多 数 是 非 结 构 化 的 文 
本 ， 这 正 是 信息 检索 系统 的 处 理 对 象 。 基 于 Web 搜索 的 经 验 ， 人 们 期 望 通过 一 个 单一 的 界 
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面 快速 高 效 地 查找 企业 信息 。 然 而 ， 这 些 期 望 没 有 在 组 织 机 构 内 部 得 到 满足 ， 并 有 证 据 显 
示 ， 员 工 花费 大 量 的 时 间 搜 索 ， 却 往往 无 法 找到 开展 工作 所 需 的 信息 [553]。 这 些 要 求 导致 
了 一 个 新 市 场 ， 即 在 组 织 机 构 内 部 ,通常 是 公司 内 部 网 使 用 的 信息 检索 系统 。 

这 种 信息 检索 应 用 通常 称 为 企业 搜索 。Hawking [719] 将 企业 搜索 定义 为 : 在 组 织 机 
构 内 部 搜索 任何 数字 化 的 文字 资料 ， 包 括 搜索 对 外 的 网 站 、 公 司 内 网 ， 以 及 所 拥有 的 诸如 电 
子 邮件 、 数 据 库 记录 和 共享 文档 等 任何 其 他 电子 文本 。 他 指出 ， FAR FR BE MI SE AR OR AE TE 
场 上 只 有 数量 有 限 的 检索 产品 有 能 力 在 组 织 机构 内 部 运营 。 

企业 搜索 的 特性 使 得 它 成 为 信息 检索 系统 设计 师 所 面临 的 项 挑战 [274，1162]。 信 息 
可 能 是 结构 化 的 ， 也 可 能 是 非 结构 化 的 。 文 档 由 多 种 来 源 产生 ,可 能 有 许多 不 同 的 语言 ， 
有 通用 的 格式 标准 。 元 数据 可 能 会 根据 一 些 不 同 的 模式 来 创建 ， 也 可 能 根本 没有 。 并 非 所 有 
用 户 对 所 有 信息 都 具有 相同 的 访问 权限 ， 员 工 记 录 等 一 些 信息 是 高 度 机 密 的 。 联 合 搜索 意味 
着 必须 从 各 种 来 源 和 格式 的 数据 中 创建 一 个 单一 的 排序 列表 。 不 同 的 情境 可 能 需要 不 同 的 排 
序 方 法 。 

虽然 已 有 一 些 从 Web 搜索 转移 到 企业 搜索 的 技术 ， 但 两 种 应 用 之 间 存 在 着 多 个 重要 的 
差异 。 在 Web 上 有 大 量 的 元 余 信 息 ， 用 户 往往 只 需要 寻找 令 人 满意 的 任意 文档 ， 而 不 是 特 
定 的 某 一 篇 。 企 业 搜索 的 用 户 是 有 特定 信息 需求 的 员工 ， 往 往 只 有 一 篇 特定 的 文档 或 文档 集 
能 满足 他 们 。 这 些 文档 内 的 链接 结构 是 有 限 的 ， 不 能 以 同样 的 方式 使 用 PageRank 或 HITS 
等 网 页 排序 算法 。 用 户 不 在 乎 文档 是 否 受 欢迎 ， 只 关心 是 否 有 他 们 做 好 工作 所 需要 的 信息 。 
但 从 积极 的 方面 看 ， 组 织 机 构 内 部 产生 的 内 容 通常 是 可 靠 的 ， 所 以 垃圾 邮件 和 优化 技术 不 再 
是 问题 。 

企业 搜索 软件 通过 扑 取 企业 内 网 发 现 和 索引 文档 、 电 子 邮 件 、 数 据 库 和 其 他 信息 资料 。 
这 一 点 类 似 于 Web 搜索 软件 。 在 意识 到 企业 搜索 所 面临 的 挑战 后 ，TREC 自 2005 年 起 开始 
举办 企业 搜索 评测 ， 起 初 以 电子 邮件 作为 数据 类 型 ， 后 来 加 入 公共 机 构 的 网 页 C439, 126]. 
因为 企业 搜索 是 与 特定 任务 相关 的 ， 所 以 在 这 种 环境 中 用 什么 指标 进行 评价 是 一 个 棘手 的 
问题 。 

第 15 章 已 经 详细 地 介绍 了 企业 搜索 系统 ， 附 录 A 介绍 并 比较 了 许多 开源 搜索 引擎 。 


16.5 趋势 和 研究 问题 


图 书馆 馆 员 和 图 书馆 用 户 要 求 新 的 和 改进 的 混合 图 书馆 信息 检索 系统 。 不 管 信息 检索 
系统 是 由 数据 库 供应 商 还 是 统 包 OPAC 系统 提供 ， 除 少数 外 ， 馆 员 都 是 信息 系统 的 主要 
消费 者 。 即 使 在 数字 图 书馆 环境 中 ， 他 们 强调 的 也 是 提供 多 种 信息 检索 模块 的 集成 访问 。 
因此 ， 他 们 的 兴趣 是 获取 和 使 用 在 自动 化 环境 中 易于 集成 的 系统 ， 方 便 自己 和 读者 使 用 。 
Yu 和 Young 表明 [1757]， 图 书馆 的 用 户 从 Web 经 验 出 发 ， 欣 赏 信息 检索 系统 。 与 此 同 
时 ， 为 满足 这 些 期 望 ， 混 合 图 书馆 的 发 展 已 越 来 越 具 有 挑战 性 。 在 Web 时 代 之 前 ，OPAC 
是 图 书馆 馆藏 的 关键 人 口 ， 而 由 图 书馆 馆 员 作为 中 介 ， 搜 索 由 多 个 主要 供应 商 所 提供 的 
数据 库 来 进行 补充 。 但 如 今 这 些 已 经 让 位 于 多 种 格式 和 来 源 复杂 的 信息 环境 。 越 来 越 多 
的 人 感觉 到 ， 图 书馆 所 提供 的 信息 系统 不 足以 帮助 他 们 完成 任务 。 图 书馆 、 书 目 服务 和 
研究 人 员 需 要 改进 搜索 功能 、 更 可 搜索 的 文本 、 集 成 的 系统 ， 以 及 能 更 好 地 满足 用 户 搜 
索 行为 的 系统 L159, 307, 764, 1618]. 

企业 搜索 的 一 个 主要 问题 是 如 何 将 信息 检索 解决 方案 适用 于 复杂 的 企业 环境 。 一 个 重要 
的 研究 课题 是 如 何 用 与 组 织 目 标 相 一 致 的 方式 来 衡量 企业 搜索 引擎 是 否 成 功 ， 如 何 开发 组 织 
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“机构 的 分 类 词典 也 是 一 个 众所周知 的 问题 。 针 对 组 织 机 构 内 部 文档 ， 研 发 数据 按 据 和 信息 提 
取 技 术 有 着 显著 的 经 济 价值 。 


16.6 文献 讨论 . 

很 早 就 有 关于 联机 数据 库 和 系统 的 有 趣 文 献 ，Bourne 和 Hahn 的 《A History of Online 
Information Services, 1963-1976) [243] 是 绝 佳 的 开始 ， 而 Neufeld 和 Cornog 则 介绍 了 电 
子 数 据 库 的 历史 C1197]. 

Kochtanek 和 Matthews 的 《Library Information Systems; From Library Automation 
to Distributed Information Access Solutions》 对 图 书馆 的 信息 系统 进行 了 概述 [914]. «Li- 
brary Technology Reports》3 现 在 是 一 个 图 书馆 技术 信息 的 好 资源 ， 每 年 出 版 6 期， 每 期 是 
一 份 讨论 特定 主题 的 报告 ， 例 如 链接 和 OpenURL、 图 书馆 开源 软件 库 ， 或 者 下 一 代 图 书馆 
目录 等 。 

Bates 的 综合 报告 [159] 是 一 份 文 献 综 述 ， 讨 论 与 图 书馆 目录 相关 的 信息 搜索 行为 ， 
以 及 访问 词汇 表 在 OPAC 检索 中 的 作用 。 加 州 大 学 的 报告 《Rethinking How We Provide 
Bibliographic Services for the University of California) [1618] 很 好 地 研究 了 目前 的 文献 和 

实践 ， 并 给 出 了 未 来 OPAC 搜索 和 检索 的 路 线 图 。 


© http://www. techsource. ala. org/ltr/。 
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17.1 介绍 


在 信息 检索 的 相关 领域 中 ， 数 字 图 书馆 Digital Library, DL) 是 最 先进 、 最 复杂 的 系 
统 。 除 了 标准 的 搜索 和 浏览 功能 外 ， 数 字 图 书馆 通常 提供 许多 其 他 的 增值 服务 ， 如 文档 保存 
和 推荐 、 参 考 咨询 服务 、 选 择 性 信息 传播 服务 等 。 此 外 ， 所 有 这 些 服 务 都 覆盖 各 种 类 型 的 多 
媒体 数据 〈 例 如 ， 音 频 [464] 和 视频 [1084，1695]) ， 并 能 以 分 布 式 方式 提供 。 

数字 图 书馆 在 电子 出 版 时 代 随 着 Web 一 起 诞生 ， 因 此 吸收 了 Web MIFS WAM. 例如， 
免费 提供 在 线 学 术 内 容 的 开放 获取 运动 (Open Access Movement, A 17. 5. 2 节 ) 就 是 在 
数字 图 书馆 社区 内 出 现 的 。 然 而 ， 数 字 图 书馆 与 Web 在 某 些 重要 方面 有 所 不 同 。 数 字 图 书 
馆 中 的 信息 有 明确 的 组 织 、 描 述 和 管理 。 因 此 ， 输 入 通常 受到 更 严格 的 控制 ， 目 的 是 提高 质 
量 。 与 缺乏 焦点 的 一 般 Web 相反 的 是 ， 数 字 图 书馆 通常 针对 有 特定 信息 需求 和 任务 的 特定 
用 户 社区 。 由 于 更 加 素 焦 ， 因 此 数字 图 书馆 可 以 提供 更 加 专业 化 的 、 面 向 特定 社区 的 服务 。 
这 意味 着 ， 为 了 增加 成 功 的 机 会 ， 这 些 社区 应 在 各 方面 参与 数字 图 书馆 的 活动 ， 包 括 规 范 
化 、 创 建 和 使 用 等 。 最 后 ， 与 Web 的 低 归 档 性 质 相 反 的 是 ， 保 存 是 〈 或 者 应 该 是 ) 数字 图 
书馆 的 一 个 关键 方面 。 

传统 图 书馆 的 关注 焦点 是 物理 对 象 ， 相 比 之 下 ， 数 字 图 书馆 几乎 完全 消除 了 物理 世界 固 
有 的 访问 和 传播 限制 。 此 外 ， 数 字 图 书馆 有 彻底 改变 传统 出 版 方式 信息 链 的 潜力 。 在 此 背景 
下 ， 作 家 、 评 论 家 、 编 辑 、 出 版 商 、 图 书馆 员 和 档案 管理 员 的 角色 和 责任 变 得 模糊 ， 用 户 在 
不 同 的 时 间 承 担 不 同 的 角色 ， 数 字 图 书馆 成 为 所 有 参与 者 之 间 (直接 ) 互动 和 沟通 的 主 炬 
道 。 然 而 ， 所 有 这 些 优势 并 非 没 有 风险 和 成 本 。 最 重要 的 是 ， 没 有 明确 的 实体 来 负责 保存 所 
有 正在 创建 的 数字 资料 ， 以 及 相关 的 知识 产权 、 版 权 管理 、 条 款 和 条 件 等 法 律 问题 。 

因此 ， 虽 然 其 成 功 主要 取决 于 信息 检索 技术 [1434]， 但 数字 图 书馆 还 包括 许多 其 他 技 
术 、 方 法 论 和 过 程 。 本 章 介 绍 数字 图 书馆 的 基本 概念 ， 包 括 数字 对 象 和 和 馆藏、 元 数据 和 目 
录 、 资 源 库 / 档 案 库 和 服务 ， 以 及 社会 经 济 问题 、 软 件 系统 、 案 例 研究 ， 还 包括 数字 图 书馆 
领域 的 研究 挑战 。 


17.2 定义 数字 图 书馆 


定义 数字 图 书馆 面临 的 挑战 之 一 在 于 ， 涉 及 这 个 领域 的 不 同 社区 有 不 同 的 角度 。Borg- 
man [234] 明确 指出 ， 无 论 在 研究 领域 还 是 在 实践 领域 ,数字 图 书馆 领域 都 存在 不 同 其 至 
竞争 的 视角 ， 因 此 对 定义 术语 、 刻 画 术语 和 建立 语 境 等 活动 造成 了 巨大 的 困难 。 

研究 人 员 从 不 同 的 角度 ， 以 不 同 程 度 的 覆盖 度 和 广度 (例如 [129，915，1340])， 对 定 
义 数 字 图 书馆 做 了 许多 尝试 。 我 们 在 此 说 明 两 个 例子 。 

Witten 和 Bainbridge [1704] 的 定义 : 

数字 图 书馆 是 由 数字 对 象 组 织 成 的 集中 馆藏 ， 包 括 文 本 、 图 像 、 视 频 、 音 频 ， 
访问 和 检索 馆藏 的 方法 ， 以 及 馆藏 的 选择 、 创 建 、 组 织 、 维 护 和 共享 。 
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这 是 一 个 以 技术 为 主 的 定义 ， 忽 略 了 数字 图 书馆 包含 的 社会 方面 。 
另 一 方面 ，Waters [1668] 认为 : 
数字 图 书馆 是 提供 资源 的 组 织 ， 和 包括 专 门 的 工作 人 员 ， 对 数字 馆藏 进行 选择 、 
构建 ， 提 供 知 识 访问 、 解 释 、 分 发 ， 保 存 其 完整 性 ， 并 确保 其 持续 时 间 ， 供 所 界定 
的 社区 或 社团 以 经 济 的 方式 使 用 。 
这 是 明显 不 同 的 看 法 。 
虽然 远 远 称 不 上 一 致 同意 ， 但 我 们 将 给 出 自己 的 观点 。 我 们 认为 : 
数字 图 书馆 是 复杂 的 信息 系统 ， 能 满足 用 户 (或 用 户 社团 ) 的 信息 需求 ， 提 供 

信息 服务 (可 以 通过 使 用 场景 描述 )、 组 织 (通过 结构 )、 展 示 (通过 空间 )， 并 以 

可 用 的 方式 与 用 户 沟通 (通过 流 ) 信息 。 

我 们 的 定义 受到 5S 框架 的 流 (Streams)、 结 构 (Structures), Æ H] (Spaces), BE 
(Scenarios) 和 社团 (Societies) 等 基本 思想 和 概念 的 启发 [643]。 流 是 任意 项 (如 位 、 字 
符 、 像 素 和 图 像 ) 的 序列 ， 代 表 数 字 图 书馆 的 内 容 。 结 构 可 以 视 为 带 标签 的 有 向 图 ， 对 数字 
图 书馆 的 内 容 进行 组 织 。 空 间 (例如 ， 向 量 、 概 率 ) 是 服从 一 定 运算 约束 的 集合 。 空 间 用 于 
服务 支持 和 展示 目的 。 情 景 可 以 看 做 是 故事 ， 它 描述 服务 的 行为 ， 由 能 够 修改 计算 状态 的 事 
件 或 行动 序列 组 成 ， 目 标 是 完成 一 个 功能 需求 。 社 团 是 实体 和 活动 的 集合 ， 以 及 它们 之 间 的 
关系 。5S 框架 首次 全 面 形式 地 刻画 了 数字 图 书馆 的 基础 [643]。 从 形式 化 的 基本 概念 出 发 ， 
可 以 形式 化 定义 和 刻画 最 小 数字 图 书馆 9 的 基本 概念 (例如 ， 数 字 对 象 、 元 数据 规范 、 馆 
me. AR. ARERR). 

注意 ， 这 个 定义 涵盖 了 数字 图 书馆 的 某 些 重要 方面 : 1) 应 支持 多 种 类 型 的 媒体 ; 2) 18 
息 在 数字 图 书馆 内 明确 组 织 ; 3 可 以 支持 丰富 的 使 用 场景 、 信 息 服务 和 互动 性 ; 4) 数字 图 
书馆 存在 目标 社区 〈 或 社团 ) 。 作 为 最 小 定义 ， 不 包括 其 他 重要 的 方面 ， 如 保存 和 知识 产权 
问题 。5S 的 开阔 视野 将 贯穿 本 章 的 其 余部 分 。 


17.3 通用 架构 


数字 图 书馆 存在 多 种 架构 ， 其 中 一 些 将 在 本 章 完整 地 讲述 。 在 图 17-1 中 ， 我 们 给 出 了 
数字 图 书馆 的 一 个 通用 参考 架构 ， 仅 供 讨论 目的 。 正 如 我 们 将 看 到 的 ， 其 他 架构 可 视 为 这 一 
基本 框架 的 变 体 。 

数字 图 书馆 由 数字 对 象 〈 例 如 ， 数 字 文档 和 图 像 等 ) 的 馆藏 Collection) 组 成 ， 并 采 
用 元 数据 记录 (metadata record) 的 目录 (catalog) 来 描述 、 组 织 或 者 指定 馆藏 对 象 可 由 何 
人 使 用 。 在 理想 情况 下 ， 每 一 个 对 象 在 目录 中 应 当 有 一 个 对 应 的 元 数据 记录 ， 这 个 记录 的 具 
体 结构 由 模式 (schema) 定义 。 这 些 对 象 通常 是 一 起 存储 在 具有 馆藏 和 目录 访问 和 管理 能 
力 的 资源 库 (repository) 中 。 服 务 〈 例 如， 创建 数字 对 象 或 元 数据 记录 、 保 存 内 容 、 提 供 
增值 服务 ， 以 及 满足 信息 需求 ) 建 立 在 资源 库 上 ， 并 由 社会 环境 中 的 使 用 者 使 用 。 服 务 还 可 
以 根据 重用 或 者 扩展 能 力 进行 合作 ， 由 简单 的 服务 创建 更 高 级 的 服务 。 数 字 图 书馆 通常 提供 
简单 的 搜索 和 浏览 服务 ， 两 者 由 索引 服务 加 以 支持 ， 这 就 构成 服务 的 最 小 集 。 用 户 界面 作为 
“黏合 剂 ”， 来 组 织 和 显示 提供 的 所 有 服务 。 

这 里 所 描述 的 架构 中 的 概念 都 是 基本 的 ， 接 下 来 将 要 详细 讨论 这 些 概念 。 


O 定义 数字 图 书馆 的 最 小 概念 集合 。 
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图 17-1 数字 图 书馆 的 通用 架构 
17.4 基本 概念 


17.4.1 数字 对 人 象 和 馆藏 


数字 对 象 可 以 视 为 数字 图 书馆 的 核心 ， 因 为 它们 承载 了 数字 图 书馆 里 的 〈 大 部 分 ) 信 
息 。 最 简单 的 观点 认为 ， 一 个 数字 对 象 是 由 内 容 和 句柄 两 部 分 组 成 的 ， 其 中 句柄 是 唯一 的 全 
局 标识 符 [427]。 这 样 一 个 简单 定义 的 扩展 可 能 涉及 伴随 对 象 的 、 简 单 的 描述 性 元 数据 ( 见 
17. 4. 2 $) [958]、 表 示 对 象 内 部 组 成 的 结构 化 元 数据 [643，1025]， 以 及 产生 对 象 不 同 视 
图 或 显示 方式 〈 例 如 ， 缩 略图 、 同 一 幅 图 像 对 象 或 Postscript 的 不 同 分 辨 率 版 本 、 数 字 文 档 
的 Microsoft Word 或 PDF 版 本 ) [1249, 962] 的 复杂 行为 [1193，1194]。 下 面 ， 我 们 将 
讨论 数字 对 象 涉及 的 多 个 方面 。 

1. 句柄 

一 旦 找到 所 需要 的 对 象 ， 就 需要 一 种 方式 来 引用 它 ， 以 便 从 资源 库 中 访问 。 引 用 或 归档 
等 其 他 许多 情况 下 也 有 这 种 需要 。 句 柄 是 为 这 个 目标 服务 的 数字 对 象 唯一 标识 符 。 

在 过 去 儿 年 中 ， 已 经 发 展 了 许多 语法 和 机 制 来 提供 数字 对 象 的 句柄 或 标识 符 。 其 中 一 些 包括 : 714 

。 统一 资源 标识 符 (Uniform Resource Identifier, URD: 用 于 确定 抽象 或 物理 资源 的 

紧凑 字符 串 [191，193，1113]。Web 术语 “统一 资源 定位 符 ” (Uniform Resource 
Locator, URL), Æ URI 的 一 个 子 集 ， 指 通过 其 主要 访问 机 制 〈 例 如 ， 他 们 的 网 络 
“位 置 >) ， 而 不 是 资源 的 名 称 或 者 其 他 一 些 属 性 来 标识 资源 。 术 语 “ 统 一 资源 名 称 ” 
(Uniform Resource Name, URN), th: URI 的 子 集 ， 指 的 是 需要 保持 全 局 唯一 性 
的 持久 资源 ， 即 使 该 资源 不 再 存在 或 变 得 不 可 用 [193]. 

。 数字 对 象 标识 符 (Digital Object Identifier, DOD: 一 个 基于 非 专 用 标准 的 开放 系 
统 ， 它 提供 了 一 个 可 互 操作 的 机 制 ， 以 便 在 数字 环境 下 标识 和 交换 知识 产权 
[1245]。DOI 遵从 URI 规范 ， 并 以 经 过 检验 的 数字 对 象 架 构 和 知识 产权 管理 标准 为 
基础 ， 提 供 一 个 管理 知识 内 容 的 可 扩展 框架 。 

。 OpenURL: 传输 与 URL 中 一 个 或 多 个 资源 有 关 的 信息 〈 元 数据 和 标识 符 ) 的 标准 

语法 [1245]. 
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。 持久 URL (PURL): 指向 中 间 解 析 服 务 、 而 不 是 互联 网 资源 直接 位 置 的 标识 符 
(或 URL)。 这 样 的 解析 服务 能 够 将 标识 符 重 定向 到 实际 URL， 使 客户 能 以 正常 方 
式 完 成 URL 事务 。 注 意 ， 虽 然 PURL 允许 不 同 的 URL 与 它 相 关联 , 但 PURL 本 
身 没 有 变化 ， 使 得 它 能 够 持久 11305]. 
2. 数字 化 
许多 数字 对 象 并 非 天 生 就 是 数字 化 的 ， 而 是 由 真实 对 象 或 其 代理 〈 例 如 ， 现 有 人 造物 的 
图 像 》 通过 数字 化 进程 创建 的 。 这 些 数字 对 象 ， 以 及 与 派生 它们 的 实际 对 象 之 间 的 明确 关 
系 ， 经 常会 被 忽视 。5S 扩展 框架 建议 考虑 这 些 关 系 [1459]。 大 规模 文档 数字 化 的 一 个 例子 
是 世界 数字 图 书馆 (World Digital Library) 项目。 该 项 目 受 到 谷歌 和 美国 国会 图 书馆 Li- 
brary of Congress, LoC) 的 支持 ， 拟 从 Loc 和 其 他 国家 图 书馆 的 馆藏 中 ,扫描 善 本 、 手 
稿 、 地 图 、 海 报 、 邮 票 和 其 他 资料 。 截 至 2005 年 6 月 ， 谷 歌 已 经 数字 化 了 大 约 5000 BH 
籍 ， 作 为 试点 项 目的 一 部 分 ， 目 的 是 完善 扫描 技术 ， 为 脆弱 的 书籍 建立 副本 而 不 破坏 它 。 谷 
歌 也 有 自己 的 数字 化 项 目 “ 谷 歌 图 书 (Google Books)” [656]， 其 合作 伙伴 是 斯 坦 福 大 学 、 
哈佛 大 学 、 密 吹 根 大 学 、 牛 津 大 学 等 大 学 的 图 书馆 ， 以 及 纽约 公共 图 书馆 。 谷 歌 图 书 可 以 提 
供 扫描 图 书 的 全 文 搜索 ， 但 由 于 版 权 问 题 ， 受 保护 的 资料 页 中 仅 有 少数 能 够 供用 户 阅 读 。 许 
多 书籍 都 使 用 书籍 扫描 机 器 人 对 书页 进行 数字 照相 ， 其 速度 高 达 每 小 时 1000 页 [897]. 
3. 智能 (数字 ) 对 象 
SODA (智能 的 对 象 ， 无 言 的 档案 ) MA [1193，1194] 主张 将 传统 上 与 资源 库 或 档案 库 
相关 的 部 分 功能 ， 例 如 执行 访问 限制 或 保留 给 定 对 象 的 使 用 历史 ， 下 推 到 称 为 桶 (bucket) 的 
智能 对 象 。 桶 是 集成 的 、 智 能 的 、 面 向 对 象 的 结构 ， 包 含 数据 、 元 数据 ， 及 它们 的 访问 方法 。 
例如 ， 装 载 技术 报告 的 桶 ， 除 了 可 以 装载 报告 本 身 的 内 容 之 外 ， 还 可 以 装载 用 于 生成 结果 的 任 
何 数据 ， 以 及 产生 它们 的 软件 方法 。 其 优点 包括 可 移动 性 、 自 满足 性 和 资源 库 独 立 性 。 
桶 的 功能 包括 : 存储 、 跟 踪 和 执行 其 使 用 条 件 ; 维护 、 显 示 ， 以 不 同 的 格式 传播 其 内 
容 ; 维护 其 事件 日 志 。 使 用 桶 的 目的 包括 : 在 单一 的 集成 对 象 内 ， 提 供 访问 与 数字 对 象 相 关 
联 的 各 种 数据 例如， 关联 数据 、 元 数据 和 模拟 等 ， 的 能 力 ; 以 及 自主 性 ， 即 对 象 能 够 在 数 
字 图 书馆 环境 之 外 存在 且 生 存 。 
4. 馆藏 
从 最 简单 的 视角 ， 可 以 把 馆藏 视 为 数字 对 象 的 集合 。 有 人 提出 了 支持 收集 和 丰富 馆藏 的 
建设 流程 1128, 287] 的 工具 技术 ， 人 允许 最 终 用 户 来 控制 该 流程 [1705]。 其 他 人 主张 利用 
Web 内 容 的 广度 优势 ， 主 要 使 用 主题 或 聚焦 假 虫 ,来 建立 数字 图 书馆 特 藏 [188，1242， 
1306], Citeseer 系统 [386] 就 是 这 样 一 个 例子 ， 它 从 Web 上 收集 计算 机 科学 的 出 版 物 ， 
自动 提取 引用 和 元 数据 信息 [694]， 甚 至 包括 致谢 内 容 [431]j。 另 一 个 例子 是 谷歌 学 术 搜 索 
Scholar (Google) [657]。 对 于 基于 Web 的 馆藏 生成 ，Web-DL mA [316] 提出 了 一 个 完 
整 的 架构 和 流程 ， 包 括 信息 收集 、 提 取 和 发 布 ， 以 及 完成 这 些 任务 的 具体 工具 。 此 外 ， 也 有 
相关 工作 试图 使 用 聚焦 扑 虫 寻找 数字 图 书馆 缺失 的 文档 [1790]。 


17.4.2 元 数据 和 目录 

刻画 元 数据 的 基本 特性 是 与 其 他 一 些 资源 〈 例 如 ， 数 字 对 象 、 馆 藏 ， 甚 至 服务 ) 的 关 涉 
性 〈aboutness) ， 即 元 数据 是 关于 (about) 一 个 特定 的 资源 。 例 如 ， 都 柏林 核心 (Dublin 
Core) 元 数据 记录 是 关于 某 个 特定 的 电子 杂志 的 文章 或 网 页 。 此 信息 通常 被 刻画 为 描述 性 的 
(descriptive) 或 结构 性 的 (〈structural) ， 在 某 些 情况 下 也 有 管理 性 的 〈administrative) ， 例 
如 有 关 知 识 产 权 的 信息 。 
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由 于 6.2 节 已 经 涵盖 了 诸如 MARC 等 一 些 元 数据 标准 ， 因 此 这 里 将 只 讨论 与 元 数据 有 
关 的 计划 ， 这 对 数字 图 书馆 特别 重要 。 

MARC 等 复杂 标准 用 来 描述 基于 互联 网 的 资源 。 都 柏林 核心 元 数据 标准 是 针对 与 这 些 标 
准 相 关联 的 复杂 性 和 成 本 而 开发 的 。 该 标准 定义 了 15 项 元 素来 描述 任何 类 型 的 数字 对 象 : 7 项 
描述 内 容 (名 称 、 主 题 、. 说 明 、 来 源 、 语 言 、 相 关 资 源 和 范围 )，4 项 处 理 知识 产权 问题 ( 创 
作者 、 出 版 者 、 发 行者 和 版 权 )， 其 他 4 项 处 理 数字 对 象 的 实例 /表现 等 属性 (标识 、 数 据 、 类 
型 和 格式 )。 合 格 的 标准 版 本 可 以 对 15 项 原始 元 素 进行 改进 ， 使 其 含义 更 罕 或 限制 更 多 。 为 了 
解释 改进 的 元 素 值 ， 定 义 了 编码 模式 。 这 些 模 式 包 括 受 控 词 表 、 形 式 符号 或 分 析 规 则 。 强 制 使 
用 都 柏林 核心 来 描述 资源 库 中 的 资源 ， 是 开放 档案 计划 元 数据 获取 协议 (Open Archives Initia- 
tive Protocol for Metadata Harvesting) 所 实现 的 互 操 作 性 基础 之 一 〈 见 17. 4. 3 节 )。 

元 数据 编码 和 传输 标准 (Metadata Encoding and Transmission Standard, METS) 
[1025] 是 一 个 对 与 数字 图 书馆 中 的 对 象 有 关 的 描述 性 、 结 构 性 和 管理 性 元 数据 进行 编码 的 
开放 标准 ， 采 用 万 维 网 联盟 (World Wide Web Consortium, W3C) 的 XML 模式 语言 表示 
[1659]。 该 标准 由 美国 国会 图 书馆 维护 ， 正 在 由 数字 图 书馆 联盟 (Digital Library Federa- 
tion》 作 为 协议 开发 [710]. METS 框架 支持 自由 选择 元 数据 格式 ， 避 免 数 据 重复 。 图 17-2 
《摘自 [287]) 显示 了 一 个 简单 的 METS 文档 例子 ， 它 由 两 章 组 成 ， 每 一 章 存储 在 一 个 HT- 
ML 文件 中 ， 并 链接 到 一 个 中 央 HTML 文件 。 每 章 保存 一 些 预 留 的 元 数据 ， 而 文档 级 的 元 
数据 存储 为 都 柏林 核心 格式 。METS 文档 最 多 包含 7 节 〈section)， 其 中 5 个 如 图 17-2 所 
示 : METS Header (METS 头 )、Administrative Metadata (管理 性 元 数据 )、Descriptive 
Metadata (描述 性 元 数据 )、(File Section) 文件 节 和 Structural Links (结构 链接 )。 其 中 结 
构 化 内 容 是 唯一 必需 的 节 ， 其 余 节 的 内 容 则 映射 到 已 编码 的 结构 中 。 为 了 清楚 起 见 ， 这 个 例 
子 只 显示 了 节 之 间 的 连接 、 描 述 性 元 数据 和 文件 。 


一 METS 头 要 点 “层次 链接 
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MODS 元 数据 对 象 描述 框架 是 基于 MARC 的 书目 元 素 集 框架 ， 可 用 于 多 种 用 途 ， 特 别 
是 图 书馆 应 用 [1026]。MODS 允许 从 现 有 的 MARC 21 记录 中 选择 数据 ， 并 允许 创建 原始 
资源 的 描述 记录 。 它 包括 MARC 字段 的 一 个 子 集 ， 并 使 用 基于 语言 的 标签 ， 而 不 是 数字 标 
签 。 在 某 些 情况 下 ， 它 从 MARC 21 书目 格式 中 重新 组 合 元 素 。 

元 数据 不 仅 限于 数字 对 象 。 为 达到 以 下 目的 ， 可 以 使 用 馆藏 元 数据 [765，1094]; 

。 利用 能 够 提供 馆藏 信息 访问 的 搜索 客户 端 软 件 进行 馆藏 注册 。 

。 将 馆藏 信息 提供 给 网 络 代理 ， 促 进 网 络 发 现 。 

。 编制 文档 。 

。 管理 ， 例 如 ， 为 广泛 的 馆藏 信息 指定 存储 中 心 点 。 

使 用 馆藏 级 的 元 数据 ， 可 以 为 获取 自 不 同 甚至 异 构 供 应 者 的 项 级 的 元 数据 记录 提供 有 价 
值 的 环境 信息 ， 从 而 提高 搜索 和 发 现任 务 的 整体 质量 [575]。 

W3C 的 Web 服务 描述 语言 (Web Service Description Language, WSDL) 根据 服务 能 
够 理解 的 词汇 和 能 够 处 理 的 消息 ， 提 供 描述 Web 服务 的 机 制 ， 同 时 提供 特定 的 、 依 赖 于 协 
议 细节 的 描述 机 制 ， 用 户 必 须 遵 从 上 述 机 制 在 确定 的 服务 端点 访问 服务 [465] 。 

元 数据 获取 通常 是 昂贵 和 费时 的 ， 尤 其 当 有 大 量 的 信息 需要 加 以 描述 时 。 自 动 元 数据 提 
取 是 一 个 发 展 中 的 研究 领域 。Han 等 人 介绍 了 基于 支持 向 量 机 的 分 类 方法 ， 从 研究 论文 的 
标题 中 提取 元 数据 ， 该 方法 在 相同 的 任务 上 优 于 其 他 的 机 器 学 习 方 法 [694]。MetaExtract 
是 基于 都 柏林 核心 十 (Dublin Core plus) 的 教育 元 数据 自动 标注 系统 ， 它 使 用 自然 语言 处 
理 技 术 来 处 理 教育 文档 [1750]. Æ [784] 中 ， 作 者 着 重 研究 从 普通 文档 Ol, HH. P 
的 章节 、 技 术 论 文 、 说 明 书 、 报 告 和 信函 等 ) 提取 标题 的 方法 。Cortez 等 人 [430] 提出 了 
一 种 基于 知识 的 无 监督 方法 ， 以 帮助 在 任何 给 定 的 格式 中 提取 出 正确 的 引用 成 分 〈 例 如 ， 作 
者 、 标 题 、 会 议 地 点 和 页 码 )。Paynter [1250] 重点 研究 元 数据 自动 标 引 工具 的 评价 ， 并 讨 
论 了 其 优点 和 局 限 性 。 


17.4.3 资源 库 / 档 案 库 


资源 库 用 于 存储 数字 对 象 的 馆藏 ， 并 提供 基于 句柄 存储 和 检索 特定 对 象 的 基本 方法 。 此 
外 ， 在 许多 情况 下 ， 它 们 还 提供 了 诸如 安全 性 [68] 等 附加 的 特性 ， 最 重要 的 是 ， 提 供 远程 
和 分 布 式 资源 库 访 问 协议 [961]。 

一 种 重要 的 资源 库 是 所 谓 的 机 构 资 源 库 Cinstitutional repository)。 机 构 资 源 库 负责 存 
储 和 归档 特定 机 构 或 机 构 联 盟 的 完整 知识 产品 ， 供 长 期 保存 、 访 问 和 分 发 [459，1066]。 这 
里 的 机 构 在 大 多 数 情况 下 是 教育 机 构 〈 例 如 大 学 )。 在 [535」 中 可 以 发 现 一 个 机 构 资 源 库 的 
综合 列表 。 

接 下 来 ,我们 讨论 与 资源 库 / 档 案 库 相关 的 重要 问题 ， 包 括 互 操作 性 和 保存 等 相关 方面 。 

1. 互 操作 性 

内 容 分 发 是 数字 图 书馆 的 关键 功能 之 一 ， 但 它 也 带 来 一 些 最 困难 的 挑战 ， 互 操作 性 
(interoperability)， 即 多 个 数字 图 书馆 系统 共同 工作 来 实现 分 布 式 搜索 或 浏览 等 共同 目标 的 
能 力 。 传 统 上 ， 数 字 图 书馆 的 互 操作 方法 因 每 种 数字 图 书馆 组 件 所 需要 的 标准 化 工作 量 不 同 
而 有 所 不 同 。 下 面 我 们 介绍 一 些 这 样 的 方法 。 

(1) 联合 服务 

根据 这 种 互 操作 方法 ， 有 些 组 织 根据 事先 认可 的 规范 构建 其 服务 ， 通常 是 从 正式 标准 中 
选择 规范 。 每 个 组 织 必须 执行 当前 所 有 的 协议 ， 并 保持 更 新 ， 这 样 就 形成 了 联合 工作 。 联 合 
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工作 的 一 个 很 好 的 例子 是 那些 使 用 Z39. 50 协议 的 工作 。Z39. 50 是 一 个 综合 协议 ， 人 允许 检索 
系统 之 间 按 客户 机 /服务 器 方式 相互 通信 [1146，62]。 该 协议 定义 了 查询 语言 、 记 录 语 法 和 
一 种 称 为 EXPLAIN 的 工具 ， 该 工具 允许 客户 机 获取 服务 器 软件 的 功能 信息 ， 和 存储 在 服务 
器 上 的 每 个 数据 库 中 信息 特点 有 关 的 各 种 信息 。 

Z39. 50 的 实施 者 提出 了 相关 的 新 计划 ， 以 使 Z39. 50 支持 更 广泛 的 知识 /语义 内 容 。 这 
些 新 计划 的 目标 是 降低 实施 障碍 ， 同 时 保留 Z39. 50 现 有 的 知识 贡献 。 其 中 的 两 个 计划 是 
SRU/SRW 伙伴 计划 [1218]。 搜 索 和 检索 Web 服务 (Search & Retrieve Web Service, 
SRW) 计划 是 国际 合作 的 一 部 分 ， 以 开发 一 个 基于 Web 的 标准 文本 搜索 界面 。 它 在 很 大 程 
度 上 借鉴 了 Z39. 50 的 抽象 模型 和 功能 ， 但 删除 了 许多 复杂 性 。SRW 使 用 常见 的 Web 开发 
工具 构建 ‘WSDL、SOAP、HTTP 和 XML 等 ,参见 第 6 章 )。 搜 索 和 检索 URL 服务 
(Search & Retrieve URL Service, SRU) 是 一 个 基于 URL 的 SRW 替代 方案 。 它 通过 HT- 
TP 使 用 GET 方式 发 送 消息 ， 并 且 把 SRW SOAP 的 请 求 组 件 映 射 为 简单 的 HTTP 参数 。 
移 走 SOAP 包装 器 后 ， 对 SRU 请 求 的 响应 和 SRW 请 求 相 同 。 

特别 地 ， 在 数字 图 书馆 领域 ，Dienst 协议 [961, 475] 是 联网 计算 机 科学 技术 参考 图 书 
tE (Networked Computer Science Technical Reference Library, NCSTRL) 项 目的 核心 
[957], Dienst 基于 HTTP 协议 ， 并 引领 了 轻 量 级 协议 的 流行 趋势 ， 这 是 该 领域 未 来 的 重要 
基石 。 它 只 包含 了 少数 几 个 所 谓 的 “动词 ”( 例 如 ，Search、Fetch) ， 用 于 服务 之 间 的 通信 。 

(2) 获取 

联合 方法 有 一 个 固有 的 问题 : 性 能 和 可 靠 性 是 联合 服务 (federated service) 最 薄弱 的 
环节 [1299]。 除 此 之 外 ， 创 建 大 型 联合 需要 为 实现 标准 和 协议 ， 并 与 任何 变化 保持 同步 付 
出 代价 。 这 些 困 难 激发 了 最 近 一 些 旨 在 创造 更 松散 的 数字 图 书馆 组 合 的 工作 。 其 基本 概念 
是 ， 参 与 者 付出 很 小 的 努力 ， 实 现 一 些 基 本 的 共享 服务 ， 而 不 规定 完整 的 一 套 协 议 。 开 放 档 
案 计 划 (Open Archives Initiative, OAD 是 说 明 这 一 点 最 好 的 例子 ， 它 促进 了 都 柏林 核心 
成 为 标准 的 元 数据 格式 ， 并 且 定 义 了 一 个 简单 的 标准 元 数据 获取 协议 。 运 行 该 服务 的 数字 图 
书馆 可 以 从 实现 该 协议 的 其 他 数字 图 书馆 获取 元 数据 ， 并 存储 到 自己 的 中 央 资 源 库 中 。 

特别 对 OAI 而 言 〈 见 下 文 )， 最 初 阻碍 其 实现 的 是 某 些 档案 库 ， 因 为 需要 用 到 少量 的 编 
码 和 中 间 件 层 建设 。 在 本 地 资源 库 较 小 的 情况 下 更 是 如 此 。 在 其 他 情况 下 ， 有 些 资源 库 有 时 
不 能 很 好 地 匹配 OAI 架构 ， 例 如 那些 基于 Z39. 50 协议 的 资源 库 。 此 外 ， 非 常 小 的 档案 库 可 
能 缺乏 人 力 资源 来 安装 和 维护 服务 器 。 而 且 ， 有 些 档案 库 不 会 采取 任何 积极 的 措施 开放 所 有 
的 内 容 。 在 这 种 情况 下 ， 我 们 现在 要 讨论 的 收集 就 成 为 唯一 的 选择 。 

(3) 收集 

如 果 各 组 织 不 准备 以 任何 正式 的 方式 进行 合作 ， 那 么 通过 收集 (gathering) 可 公开 访 
问 的 信息 仍然 可 能 实现 基本 的 互 操作 性 。 收 集 的 最 佳 例子 是 通过 Web ERER CLF 12 
章 )。 因 为 收集 有 最 小 的 员工 成 本 ， 所 以 可 以 为 大 量 的 数字 图 书馆 提供 服务 ， 但 与 那些 由 伙 
伴 图 书馆 充分 合作 所 实现 的 服务 相 比 ， 质 量 相对 较 差 。 这 主要 是 由 于 可 收集 到 的 数据 存在 质 
量 问题 ， 缺 乏 结构 和 出 处 等 信息 。 

(4) 开放 档案 计划 

开放 档案 计划 (Open Archives Initiative, OAD 及 其 元 数据 获取 协议 被 许多 人 认为 是 
过 去 十 年 中 数字 图 书馆 领域 最 重要 的 发 展 之 一 。 因 此 值得 更 详细 的 介绍 。 两 者 的 根源 是 数据 
和 服务 提供 者 的 清晰 分 离 。 数 据 提供 者 使 用 OAI 技术 框架 作为 表示 关于 内 容 的 元 数据 的 一 
种 手段 。 服 务 提供 者 使 用 OAI 协 议 从 数据 提供 者 获取 元 数据 ， 并 使 用 元 数据 作为 开发 增值 
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服务 的 基础 [963]。OAI 技术 框架 解决 了 两 个 著名 的 元 数据 需求 : 互 操作 性 和 可 扩展 性 

(或 社区 特异 性 ) 。 元 数据 的 互 操作 性 要 求 所 有 OAT 数据 提供 者 使 用 共同 的 格式 提供 元 数据 : 

无 修饰 的 都 柏林 核心 元 数据 集 9 (Unqualified Dublin Core Metadata Set), Æ OAI 技术 框架 

内 ， 社 区 特异 性 的 描述 ， 或 元 数据 的 特异 性 ， 通 过 支持 并 行 的 元 数据 集 解 决 。OAI 技术 框 

架 允 许 两 种 类 型 的 选择 性 获取 : 1) 按 日 期 ， 基 于 记录 的 日 期 稚 ” ， 请 求 可 能 包含 需要 获取 

的 元 数据 的 日 期 范围 ， 这 可 能 是 完全 的 (两 个 日 期 之 间 〉 或 部 分 的 (只 有 下 界 或 者 上 界 )， 

2) 按 集合 ， 可 能 是 分 层 组 织 的 可 选项 目 组 。OAI 基础 结构 并 不 指定 集合 的 实际 含义 。OAI 

元 数据 获取 协议 (Open Archives Initiative Protocol for Metadata Harvesting, OAI-PMH) 

包含 6 个 动词 : 

。 GetRecord: 用 于 从 资源 库 的 一 个 项 目 中 检索 个 别 “〈 元 数据 ) 记录 。 需 要 的 参数 包括 

所 请 求 记录 的 标识 符 〈 或 句柄 ) ， 以 及 应 在 记录 中 包含 的 元 数据 的 格式 。 

Identify: 用 于 检索 资源 库 的 有 关 信息 ， 包 括 : D) 人 工 可 读 的 资源 库 名 称 ; D) 资源 

库 的 基本 URL; 3) 资源 库 支 持 的 OAI 协议 版 本 ; 4) 资源 库 管理 员 的 电子 邮件 

地 址 。 

。 ListIdentifiers: 用 于 检索 从 资源 库 获 取 的 记录 的 标识 符 。 可 选 参数 允许 选择 标识 
符 ， 其 依据 为 标识 符 在 资源 库 的 一 个 特定 集合 中 的 隶属 关系 ， 或 者 在 特定 日 期 范围 
内 修改 、 创 建 或 删除 标识 符 。 . 

e ListMetadataFormats: 用 于 检索 资源 库 可 用 的 元 数据 格式 。 可 选 参 数 约束 了 对 一 个 
特定 记录 可 用 的 元 数据 格式 的 请 求 。 

。 ListRecords: 用 于 从 资源 库 中 获取 记录 。 可 以 使 用 与 ListIdentifiers 动词 相同 的 选 

择 标 准 。 

ListSets: 用 于 检索 资源 库 的 集合 结构 。 

2. 保存 和 归档 . 
软 、 硬 件 的 过 时 和 计算 机 媒质 的 退化 ， 将 给 所 有 类 型 的 数字 内 容 带 来 风险 ， 在 不 那么 遥远 

的 将 来 ， 可 能 无 法 给 对 这 些 内 容 感 兴趣 的 用 户 提供 服务 。 随 着 越 来 越 多 的 数字 信息 的 出 现 ， 对 

什么 样 的 信息 应 予以 保存 ， 和 它 该 如 何以 经 济 有 效 的 方式 保存 ， 都 必须 引起 注意 [1338]. 

以 美国 为 例 ， 美 国 国会 图 书馆 领导 了 国家 数字 信息 基础 设施 和 保存 计划 (National Dig- 

ital Information Infrastructure and Preservation Program) [1024，999]， 这 是 一 个 由 联邦 和 

非 联邦 实体 组 成 的 联盟 ， 其 创建 目的 是 确定 数字 资源 保存 的 政策 、 协 议和 战略 。 与 此 相 一 

致 ， 美 国 国家 科学 基金 会 ,依据 国家 科学 基金 会 /国会 图 书馆 数字 归档 和 长 期 保存 联合 

(Digital Archiving and Long-Term Preservation, DIGARCH) 计划 ， 资 助 了 第 一 个 与 保存 

和 归档 相关 的 项 目 。 

除了 法 律 、 社 会 和 经 济 影响 外 ， 社 会 上 的 普遍 看 法 也 反映 在 文献 中 ， 认 为 资源 库 和 档案 

库 有 责任 保存 它们 持 有 的 内 容 [L1386，1362]。 此 外 ， 这 些 档 案 库 应 该 保证 其 信息 真实 可 靠 ， 

HADE [L627]。 它 们 应 该 透明 地 公开 其 程序 和 做 法 ， 以 使 公众 相信 档案 库 已 经 得 到 了 妥善 

的 保存 。 

从 历史 上 和 看， 对 于 数字 资源 保存 ， 已 经 提出 了 五 种 主要 的 技术 方法 : 
D 迁移 (Migration) :从 一 种 数字 格式 转化 为 另 一 种 格式 ， 后 者 通常 是 前 者 的 直接 后 


O 所 有 字段 都 认为 是 可 选 的 。 
O 定义 为 “项 目的 创建 、 删 除 或 最 新 修改 日 期 ， 其 作用 是 从 该 项 目 传播 记录 元 数据 的 变化 ”。 
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继 〈 例 如 ， 从 JPEG 到 JPEG 2000) [442], 

2) WA (Emulation: 通过 保存 原始 程序 或 者 创建 可 以 仿真 旧 环境 的 新 程序 ， 重 建 原 
来 的 操作 环境 [1387]. 

3) 包装 (Wrapping): 将 需要 保管 的 对 象 用 足够 的 人 工 可 读 的 元 数据 包装 起 来 ， 使 其 
在 未 来 能 够 解码 [1671]j。 这 个 想法 经 过 了 Gladney 的 一 系列 探索 ， 他 创造 了 术语 “可 信 数 
字 对 象 ” (trustworthy digital objects) [626, 628, 627]: 这 种 数字 对 象 采用 元 数据 描述 其 
来 源 ， 用 加 密 方式 封装 ， 其 公 钥 信任 机 人 制 源 于 受 尊敬 的 某 些 机 构 ， 并 提供 了 管理 信息 标识 符 
的 具体 方式 。 

4) 刷新 《Refreshing): 从 一 个 位 置 复 制 位 流 到 另 一 个 位 置 ， 不 管 物理 介质 是 否 相同 [1013] 。 

5) 复制 (Replication): 制作 足够 的 数据 副本 。 这 是 LOCKSS 项 目 [1079] 所 倡导 的 
主要 方法 。 在 世界 范围 的 测试 中 ，LOCKSS 项 目 已 经 开发 并 部 署 了 一 个 保管 数字 资料 的 对 
等 (peer to peer) 系统 。 它 由 大 量 独立 的 、 低 成 本 的 、 持 久 的 Web 缓存 组 成 ， 通 过 使 用 复 
杂 的 投票 模式 ， 合 作 来 检测 和 修复 破坏 的 内 容 。 

注意 ， 这 里 不 考虑 存储 对 象 的 物理 介质 本 身 的 劣化 ， 因 为 这 是 介质 本 身 的 特性 ， 而 不 是 
对 象 的 。 但 是 ， 由 于 刷新 是 常用 的 方法 ， 我 们 承认 这 是 一 个 重要 问题 。 由 于 成 本 、 操 作 和 技 
术 上 的 原因 ， 迁 移 是 前 三 种 技术 中 最 广泛 使 用 的 [1671]。 但 是 ， 理 想 的 解决 方案 应 该 是 所 
有 技术 的 结合 [818，1671]。 已 经 被 应 用 的 一 个 例子 就 是 基于 通用 虚拟 计算 机 (Universal 
Virtual Computer, UVC) [628, 1049] 的 组 合 。 数 字 对 象 的 归档 方法 包括 规定 数据 (存储 
在 物理 介质 ) 所 需 的 处 理 过 程 ， 以 便 向 未 来 的 客户 端 返回 信息 。 流 程 规范 和 逮 辑 视图 定义 都 
与 数据 一 起 存档 〈 包 装 )。 程 序 行为 的 归档 方法 是 保存 原始 的 可 执行 对 象 代 码 ， 和 原始 计算 
机 执行 每 条 机 器 指令 需要 的 处 理 规 范 〈 仿 真 )。 在 这 两 种 情况 下 ， 处 理 规范 都 是 基于 UVC 
的 ， 该 UVC 是 一 般 化 的 ， 但 在 未 来 基本 够 用 。 

空间 数据 系统 咨询 委员 会 (Consultative Committee for Space Data Systems) 提出 的 开 
放 档 案 信 息 系 统 (Open Archival Information System, OAIS) 参考 模型 ， 提 供 了 一 个 进行 
数字 化 保存 的 研究 和 实验 参考 架构 [417]。OAIS 描述 了 通用 数字 资源 库 的 功能 ， 数 字 对 象 
如 何 按 需 要 准备 ， 提 交 给 档案 库 ， 长 时 间 保 存 ， 维 护 和 按 需 检索 。OAIS 的 优点 在 于 ， 建 立 
了 描述 资源 库 体系 结构 和 比较 实现 的 公共 术语 和 概念 ， 其 中 比较 实现 是 指 在 不 指定 组 织 结 构 
应 该 采用 哪 种 特定 实现 方式 下 进行 比较 。 它 也 没有 涉及 具体 技术 、 存 档 技术 或 者 内 容 类 型 。 


17. 4.4 服务 


服务 是 访问 数字 图 书馆 的 主要 渠道 。 通 过 服务 可 以 创建 、 发 现 、 丰 富 和 访问 信息 ， 并 最 
终 在 数字 图 书馆 中 使 用 。 数 字 图 书馆 服务 可 以 从 许多 方面 刻画 和 理解 。 一 种 方式 是 分 析 用 户 
(读者 、 参 与 者 ) 或 其 他 服务 的 输入 〈 所 消费 的 信息 ) 和 输出 〈 所 产生 的 信息 )。 这 是 很 重要 
的 ， 尤 其 是 在 服务 只 能 通过 “ 黑 合 ”模式 访问 ， 而 不 知道 其 内 部 过 程 或 组 件 的 情况 下 。 这 种 
分 析 有 助 于 理解 服务 是 如 何 使 用 的 ， 有 哪些 要 求 ， 边 界 在 哪里 。 

[642] 全 面 地 研究 了 数字 图 书馆 的 服务 行为 。 该 分 析 的 结果 是 ， 定 义 了 服务 的 分 类 词 
典 ， 如 表 17-1 所 示 。 分 类 词典 是 通过 对 服务 的 输入 和 输出 及 其 共性 进行 深入 分 析 而 获得 的 。 
具有 类 似 I/O 行 为 的 服务 被 组 合 在 一 起 。 在 分 类 词典 的 最 高 级 ， 服 务 分 为 基础 (Infrastruc- 
ture) 和 信息 满足 服务 (Information Satisfaction Services)。 后 者 区 别 于 前 者 的 地 方 在 于 ， 
其 主要 功能 需要 表示 个 人 物品 或 兴趣 特点 〈 例 如 ， 用 户 轮廓 、 用 户 认为 相关 的 文档 集 》 的 用 
户 输入 ， 或 者 信息 需求 的 显 式 表示 (查询 、 锚 点 、 期 望 对 象 的 句柄 等 ) 。 
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家 17-1 数字 图 书包 服务 /活动 的 分 类 词典 


基础 (Infrastructure Services) 


















i i ildi 信息 满足 服务 
创建 型 TAER ee tional) 增值 服务 (Add-Value) (Information Satisfaction Services) 
获得 保护 注释 RE 
创作 转换 分 类 T 
SH 复制 聚 类 定制 
KER GRR) 迁移 评价 传播 
描述 翻译 〈 格 式 ) 提取 PR CRW 
数字 化 索引 过 滤 
获取 链接 推荐 
提交 日 志 HOR 
度量 搜索 


分 级 

(同行 ) 评议 
综述 

训练 (分 类 器 》 
翻译 语言 /格式 ) 
可 视 化 


基础 服务 负责 生成 数字 图 书馆 的 组 件 ， 这 些 组 件 是 开发 信息 满足 服务 的 基石 。 基 础 服务 
又 细 分 为 资源 库 建 设 (Repository-Building) 和 增值 服务 (Add-Value service)。 资 源 库 建设 
服务 负责 生成 “最 小 数字 图 书馆 ”的 基本 构建 块 ， 包 括 数 字 对 象 、 元 数据 规范 、 馆 藏 和 元 数 
据 目 录 。 增 值 服务 汇总 投入 的 总 价值 〈 例 如 ， ER. PR. Bt. Bal. BB. Am. A 
级 、 评 议 、 翻 译 和 可 视 化 )， 或 者 将 对 象 连接 在 一 起 〈 例 如 ， 通 过 训练 和 分 类 、 聚 类 、 索 引 
和 链接 ) 。 
可 用 性 问题 是 一 个 与 服务 有 关 的 、 却 未 在 数字 图 书馆 文献 中 充分 体现 的 重要 方面 
[1204]j， 即 参与 者 使 用 数字 图 书馆 服务 的 容易 程度 ， 主 要 通过 其 用 户 界面 体现 。 有 些 受 控 
的 、 基 于 实验 室 的 早期 数字 图 书馆 可 用 性 研究 有 [578，1786j。 [899] 对 ACM, IEEE, 
NCSTRL 和 其 他 一 些 数字 图 书馆 的 用 户 界 面 进 行 了 对 比 和 评价 ， 并 发 现 了 许多 问题 。 其 他 
的 研究 主要 针对 教育 环境 ， 和 集中 在 信息 满足 服务 的 可 用 性 问题 ， 即 读者 查找 、 使 用 ， 或 者 与 
从 数字 图 书馆 中 发 现 的 资料 进行 交互 的 方法 (如 [207，208])。 例 如 ，Borgman 等 人 
[235, 236] 研究 了 亚历山大 数字 地 球 原型 《Alexandria Digital Earth ProtoType, ADEPT) 
的 设计 并 加 以 评价 。ADEPT 是 有 关 地 理 参照 信息 资源 的 数字 图 书馆 ， 用 于 本 科教 学 。 访 谈 
表明 ， 该 项 目的 地 理 资 源 能 更 好 地 服务 于 研究 ， 而 不 是 教育 目的 ， 这 意味 着 需要 为 教学 设计 
新 的 服务 。[1110] 进行 了 网 上 调查 ,采访 了 使 用 NEEDS (美国 国家 工程 教育 数字 图 书馆 ) 
的 教育 工作 者 和 学 生 。 结 果 发 现 ， 数 字 图 书馆 需要 开发 和 实现 更 有 效 的 服务 吸引 读者 ， 这 对 
它们 的 生存 至 关 重 要 。 例 如 ， 调 查 发 现 了 对 评论 、 服 务 反 馈 和 网 上 讨论 的 需求 。 另 一 项 研究 
针对 焦点 小 组 (focus groups) 进行 了 访谈 9 ， 访 问 了 有 着 不 同 教育 背景 的 在 职 教师 、 职 前 
教师 和 科学 图 书馆 馆 员 ， 了 解 他 们 对 数字 图 书馆 服务 质量 的 看 法 [1544]。Adams 和 Bland- 
ford 介绍 了 一 项 有 趣 的 研究 ， 通 过 访谈 、 焦 点 小 组 和 对 150 个 用 户 进行 观察 ， 并 对 结果 进行 
深入 分 析 ， 研 究 了 数字 图 书馆 如 何 支持 健康 和 学 术 领 域 有 关 用 户 的 “信息 之 旅 ”[10]。 
有 时 显 式 的 用 户 研 究 很 难 进行 ， 这 时 的 替代 方法 是 日 志 分 析 (log analysis) 。 日 志 分 析 
可 以 作为 了 解读 者 如 何 实际 使 用 数字 图 书馆 的 系统 和 服务 ， 以 及 这 些 技 术 如 何 支持 用 户 的 信 


O 一 种 定性 评价 形式 ， 邀 请 一 群 人 在 一 起 ， 针 对 一 个 产品 、 概 念 或 技术 自由 发 言 ， 说 明 他 们 的 态度 或 感觉 。 
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息 搜索 活动 的 主要 来 源 。 日 志 记 录 和 分 析 有 助 于 评估 系统 ， 为 改善 和 增强 新 的 服务 创造 机 会 
L851]。 已 经 提出 了 基于 XML 的 数字 图 书馆 日 志 建 议 标准 ， 它 比 传统 的 Web 服务 器 日 志和 承 
载 了 更 多 的 信息 [639，645]。 除 传统 研究 之 外 ， 日 志 分 析 在 数字 图 书馆 中 的 其 他 创新 性 使 
用 还 包括 导出 加 权 的 期 刊 关 系 网 络 ， 确 定 研究 趋势 [223]， 利 用 OAI-PMH 获取 的 日 志 条 
目 来 开发 推荐 系统 [1621] 等 。 


17.5 社会 经 济 问题 


17. 5. 1 会 问题 


数字 图 书馆 领域 最 困难 的 挑战 不 是 技术 ， 而 是 涉及 社会 经 济 的 问题 和 实践 。 在 数字 图 书 
馆 所 涉及 的 社会 问题 中 ， 最 突出 的 包括 : 合作 与 协作 (HEHE) 方面 ; 社交 网 络 ; 文 
化 遗产 和 保存 ; 数字 鸿沟 和 国际 化 。 

如 前 所 述 ， 数 字 图 书馆 有 可 能 彻底 改变 传统 的 信息 链 ， 成 为 用 户 与 信息 和 用 户 之 间 交 互 
的 主 渠道 。 这 将 打开 很 多 合作 /协作 的 机 会 。 举 例 来 说 ， 伙 伴 关系 评议 模型 (Partnership 
Review Model) 针对 学 术 和 复杂 的 数字 教育 资源 〈 如 课程 模块 、 模 拟 和 数据 分 析 工 具 )， 探 
索 合 作 和 无 协调 的 同行 评议 [1672]j。 内 容 协 作 生 产 〈 在 某 些 情况 下 就 是 竞争 力 ) 的 最 佳 例 
证 是 Wikipedia 项 目 [1689]， 其 他 项 目 ， 如 PlanetMath [940] 也 证 明了 这 一 点 ， 其 关键 是 
通过 探索 由 志愿 者 组 织 和 社区 规范 的 知识 生产 ， 保 证 长 期 项 目的 可 持续 性 。 这 里 ， 志 愿 者 社 
区 以 平等 的 方式 为 项 目 组 件 做 出 贡献 ， 没 有 传统 的 层次 结构 的 组 织 或 经 济 补偿 ， 而 是 存在 一 
些 流程 将 它们 结合 起 来 ， 产 生 一 个 统一 的 工作 。 这 种 形式 的 内 容 协 作 生 产 也 称 为 共同 对 等 生 
y= (Commons-Based Peer Production，CBPP)。 因 为 互联 网 已 经 降低 了 某 些 沟通 和 合作 障 
碍 ，CBPP 已 经 出 现 并 莲 过 发 展 ， 成 为 一 种 可 行 的 完成 大 型 复杂 项 目的 替代 方式 [182]. 

EK, Web 上 出 现 了 一 个 有 趣 的 社会 现象 一 一 社交 网 络 (social networks), BATE 
者 、 同 事 或 朋友 组 成 的 、 有 着 共同 兴趣 的 非 正 式 社区 [881]。 换 言 之 ,社交 网 络 通 过 显 式 或 
隐 式 的 兴趣 爱好 ， 以 及 相互 交流 或 相互 关系 ， 将 人 们 连接 在 一 起 [1260]， 最 好 的 例证 是 
Facebook [540], MySpace [1168]、Orkut [1234] 和 Friendster [596] 等 关系 网 站 。 有 
些 数字 图 书馆 项 目 已 经 探索 了 社交 网 络 的 应 用 ， 这 些 应 用 进行 了 不 同形 式 的 协同 ， 例 如 通过 
探究 合作 关系 对 科学 文章 的 作者 进行 消 歧 [695]j， 提 供 推荐 服务 [790，791，1259]j， 并 将 
数字 图 书馆 整合 到 特定 的 社区 网 络 [310] 等， 然而， 这些 丰富 的 社会 化 结构 的 潜力 还 有 待 
于 进一步 挖掘 。 

我 们 已 经 谈 到 了 保存 问题 的 一 些 技术 方面 。 不 过 ， 其 中 所 涉及 的 社会 问题 也 许 更 难 解 
决 。 首 要 挑战 就 是 要 建立 起 公众 意识 ， 即 如 果 在 信息 生命 周期 里 不 考虑 保存 问题 ， 那 么 就 会 
有 巨大 的 危险 ， 其 后 果 是 失去 目前 已 经 生产 的 和 正在 生产 的 大 多 数 RF) 知识 和 文化 遗 
产 。 从 意识 到 这 一 点 开始 ， 到 建立 保存 文化 使 得 保存 工作 嵌入 知识 的 生产 和 消费 链 中 ， 都 是 
巨大 的 挑战 ， 这 些 挑战 包括 : 1) 确定 责任 ; 2) 改变 既定 做 法 和 方法 ; 3) 寻找 资源 来 处 理 
额外 开销 ; 4) 确保 所 保存 信息 的 真实 性 [627] 等 。 


17.5.2 经 济 问题 


数字 图 书馆 的 经 济 问题 与 多 个 方面 相关 : 安全 例如， 授权 、 验 证 和 水 印 等 ); 法 律 〈 例 
如 ， 条 款 和 条 件 、 专 利 、 商 标 、 版 权 、 知 识 产权 和 数字 版 权 管 理 ); 出 版 (例如 ，Eprints、 自 
归档 、 编 目 成 本 和 开放 馆藏 ); 可 持续 性 。 可 持续 发 展 最 有 效 的 方法 是 使 用 之 前 讨论 的 协作 手 
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段 。 在 上 述 问题 中 ， 我 们 将 讨论 三 个 重要 的 问题 : 版 权 管理 、 访 问 控制 和 出 版 问题 。 

1. 版 权 管 理 

知识 产权 包括 法 律 和 技术 系统 ， 保 护 以 产品 形式 表达 的 想法 或 知识 独家 使 用 的 个 人 权 
益 。 一 种 类 型 的 知识 产权 是 版 权 ， 即 复制 原创 作品 的 权利 ， 保 护 期 限 通常 是 有 限 的 。 传 统 的 
版 权 管 理 得 益 于 资料 的 物质 形体 [802]。 随 着 从 传统 时 代 迁 移 到 数字 时 代 ， 数 字 资料 的 复制 
和 传播 变 得 非常 容易 ， 这 就 对 保护 这 些 权 利 带 来 了 许多 挑战 。 对 保存 在 数字 图 书馆 和 资源 库 
的 受 保护 资料 更 是 如 此 。 数 字 版 权 管 理 (Digital Rights Management, DRM) [326, 802] 
ETRE. CARAS ASM, We, Be. eH. RP. KAR 
字 资 料 的 一 切 权 利 。Ianella [802] 给 出 了 DRM 架构 的 概述 。 

2. 访问 控制 

对 知识 产权 管理 的 忧虑 带 来 了 许多 数字 图 书馆 实现 某 种 类 型 访问 控制 的 需求 。 例 如 ， 美 
国 国家 科学 数字 图 书馆 〈U. S. National Science Digital Library) 的 核心 架构 (参见 17.7.2 
节 ) 使 用 了 一 些 协议 和 系统 (如 Kerberos [1533] 或 Shibboleth [1191]) ， 将 身份 验证 和 成 
员 授 权 分 配给 不 同 用 户 社区 的 管理 员 [959]， 并 利用 权限 管理 代理 (Rights Management 
Broker) ， 根 据 图 书馆 中 的 项 目 《〈 由 元 数据 指定 ) 和 用 户 (从 授权 服务 获得 ) 的 性 质 决 定 是 
和 否 允 许 用 户 访问 。 其 他 系统 则 直接 在 系统 架构 〈 例 如 ， [1562]) 或 内 部 数据 模型 [283， 
871] 中 纳入 身份 验证 和 访问 控制 。 

3. 出 版 问题 

鉴于 不 能 正确 支持 科学 界 的 需求 ， 目 前 的 科学 交流 过 程 中 已 在 过 去 几 十 年 受到 了 严厉 的 
批评 [908]。 许 多 因素 导致 了 这 一 点 ， 包 括 : 1) 出 版 商 对 期 刊 许可 权 的 提 价 速度 比 通胀 快 
很 多 ， 研 究 界 和 大 学 图 书馆 的 预算 却 不 高 ， 造 成 了 失衡 现象 ; 2) 由 于 版 权 转 让 给 了 出 版 商 ， 
作者 无 法 改进 以 及 与 同行 分 享 自己 的 工作 ， 并 因此 获得 必要 的 科学 确认 ; 3) 提交 文献 和 实 
际 出 版 时 间 的 巨大 延迟 。 

在 此 背景 下 ， 数 字 图 书馆 和 资源 库 已 成 为 解决 上 述 问 题 的 有 效 替代 方式 。 许 多 数字 图 书 
馆 可 以 作为 预 印 本 〈pre-prints， 科 学 文章 出 版 前 的 版 本 ) 的 中 央 存 储 库 ， 以 方便 其 流通 ， 
从 而 使 作者 得 到 更 多 的 及 时 反馈 。 这 一 问题 也 导致 了 “开放 存 取 ” (Open Access) 运动 
[706] 的 发 展 ， 以 及 后 继 的 开放 档案 计划 等 提高 互 操作 性 的 重要 活动 [963]. 

由 于 经 济 的 可 持续 发 展 ， 许 多 数字 图 书馆 都 支持 “ 自 存档 ”服务 ， 使 研究 人 员 能 够 轻松 地 
将 自己 的 工作 归档 ， 并 与 同行 分 享 成 果 和 著作 ， 通 过 让 感 兴趣 的 社区 参与 以 节省 成 本 。 事 实 
上 ,根据 Harnad [706] 的 阐述 ， 自 存档 的 目标 是 让 科学 论文 的 全 文 可 见 ， 让 任何 感 兴 趣 的 用 
户 通过 互联 网 进行 访问 、 检 索 和 使 用 。 使 用 “ 自 存 档 ” 这 个 术语 ， 是 因为 由 作者 本 人 负责 在 资 
源 库 中 插入 自己 的 工作 ， 并 填写 任何 相关 的 元 数据 描述 。 然而 ， 只 要 作者 允许 ， 自 存档 也 可 以 
由 第 三 方 进行 。 事 实 上 ,目标 社区 的 积极 参与 是 一 切 数 字 图 书馆 成 功 的 关键 。 对 于 目标 社区 的 
自 存档 界面 ， 已 经 有 了 评测 报告 ， 例 如 [1631j。 这 种 自 存档 和 不 受 限 的 联机 资料 发 布 已 由 布 
达 佩 斯 开放 存 取 计 划 (Budapest Open Access Initiative) 等 国际 运动 推广 [216]. 


17.6 软件 系统 


以 下 是 支持 数字 图 书馆 创建 的 软件 系统 。 它 们 大 多 可 以 自由 下 载 并 安装 在 本 地 ， 由 目标 
社区 对 许多 数字 图 书馆 的 建设 提供 支持 。 当 前 许多 常用 的 数字 图 书馆 软件 系统 或 者 作为 研究 
原型 开发 ， 或 者 与 企业 合作 开发 。 这 里 ， 我 们 将 介绍 以 下 软件 系统 ， Greenstone、Fedora、 
Eprints、Dspace、ODL 和 5S 套件 。 
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17.6.1 Greenstone 


由 怀 卡 托 大 学 计算 机 科学 系 开 发 的 Greenstone 系统 受到 了 联合 国教 科 文 组 织 
(UNESCO) 的 支持 ， 是 最 早 的 综合 性 数字 图 书馆 软件 系统 之 一 ， 目 前 仍然 非常 受 欢 迎 。 
Greenstone 的 重点 是 资料 的 出 版 。 甚 架构 围绕 播 件 和 分 类 器 [L1701，1702]。 搬 件 是 负责 
“识别 ”具体 数据 格式 ， 并 将 其 转换 为 内 部 表示 的 小 软件 模块 。 现 在 有 针对 标准 文件 格式 
(如 PDF, HTML, Microsoft Word) 和 多 种 元 数据 格式 的 插件 。 此 外 ， 新 的 插件 可 开发 和 
添加 到 系统 中 ， 以 处 理 新 的 格式 。Greenstone 分 类 器 不 同 于 第 8 章 中 所 述 的 分 类 任务 ， 它 用 
于 从 元 数据 建立 浏览 索引 ， 例 如 按 字 母 顺 序 的 列表 〈 如 标题 )、 日 期 选择 列表 和 层次 浏览 结 
构 等 。 与 插件 一 样 ， 也 可 为 特殊 用 途 的 浏览 结构 编写 新 的 分 类 器 。 系 统 还 为 收集 和 丰富 数字 
图 书馆 馆藏 的 流程 提供 便利 的 工具 [128]j]， 支 持 全 文 和 基于 元 数据 的 搜索 ， 使 用 压缩 技术 以 
最 大 限度 利用 存储 资源 [1709]。 该 系统 最 近 已 重新 设计 ， 以 实现 OAI-PMH 和 METS 等 新 
的 要 求 和 标准 [287]。 


17.6.2 Eprints 


Eprints [1666] 由 南安 普 敦 大 学 开发 ， 旨 在 促进 科研 材料 的 自 归 档 ， 以 提高 学 术 著 作 
的 知名 度 和 影响 力 。 它 是 实现 机 构 资 源 库 的 领先 软件 ， 在 世界 各 地 有 庞大 和 不 断 增长 的 安装 
基地 。 

Eprints 由 服务 团队 提供 支持 [L1567]。 团 队 提 供 收费 的 建议 和 咨询 ， 包 括 最 初 的 帮助 和 
指导 、 员 工 培 训 和 软件 定制 ， 以 满足 特定 机 构 的 需求 。 


17.6.3 DSpace 


DSpace [1562] 是 一 个 开源 软件 系统 ， 由 麻 省 理工 学 院 图 书馆 和 惠普 合作 开发 。 该 系 
统 创建 的 目的 是 针对 研究 和 教育 类 数字 化 资料 的 长 期 保存 ， 开 发 并 部 署 解决 方案 。 公 开源 代 
码 的 目的 是 围绕 DSpace 形成 一 个 开源 社区 。 这 些 DSpace 社区 负责 添加 特色 、 改 进 系统 功 
能 ， 以 及 为 满足 特定 机 构 的 要 求 和 需要 改编 系统 。 其 内 部 术语 和 数据 模型 的 基础 是 开放 档案 
信息 系统 (Open Archival Information System, OAIS) 参考 模型 所 提出 的 概念 [417]。 该 
系统 的 另 一 个 强 有 力 的 组 成 部 分 是 支持 数据 提交 的 工作 流 子 系统 ， 其 策略 可 根据 不 同 的 社区 
和 馆藏 而 调整 。 


17.6.4 Fedora 


灵活 可 扩展 的 数字 对 象 资 源 库 架 构 (Flexible Extensible Digital Object Repository 
Architecture, Fedora) 是 一 个 基于 Java 的 开源 资源 库 框 架 ， 由 美国 康 奈 尔 大 学 信息 科学 系 
与 弗吉尼亚 大 学 图 书馆 联合 开发 。Fedora 为 复杂 数字 对 象 及 其 相互 关系 的 存储 、 管 理 和 分 
发 而 专门 开发 [962]。 这 些 对 象 除了 绑 定 的 服务 以 外 ， 可 能 还 含有 本 地 或 分 布 式 的 内 容 。 人 多 
许 一 个 对 象 有 多 种 表示 形式 〈 称 为 分 发 )， 其 中 甚至 有 可 能 是 动态 创建 的 。 采 用 资源 描述 框 
an (GL 6.4.4 节 ) 表示 对 象 之 间 的 关系 ， 并 进行 存储 ， 以 供 进一步 查询 。Fedora 架构 通过 
Web 服务 实现 ， 为 其 他 应 用 〈 例 如 ， 数 字 图 书馆 ) 的 创建 提供 基础 。 

Fedora 的 对 象 模型 支持 多 种 复杂 的 对 象 类 型 ， 如 文档 、 图 像 、 电 子 图 书 、 多 媒体 对 象 
和 软件 等 。 此 外 ， 这 些 类 型 可 以 结合 起 来 创建 新 的 对 象 ， 并 有 可 能 将 服务 绑 定 到 对 象 以 产生 
动态 内 容 。 该 模型 还 支持 对 象 之 间 的 关系 ， 以 便 在 资源 库 中 的 对 象 之 间 可 以 有 一 些 语义 关系 
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(例如 书 和 它 的 各 章 ， 或 会 议 及 其 论文 集 )。Fedora 的 对 象 模型 也 可 以 看 做 是 一 个 由 内 部 弧 
(将 数字 对 象 联系 到 其 表达 形式 ) 和 外 部 (数字 对 象 之 间 ) 组 成 的 有 向 图 。Fedora 提供 了 
资源 索引 (Resource Index) 服务 ， 以 便 对 这 张 图 进行 图 形 的 存储 和 查询 。 


17.6.5 ODL 


开放 数字 图 书馆 (Open Digital Libraries, ODL) 是 第 一 个 背离 数字 图 书馆 软件 系统 整 
体 性 视角 的 框架 ， 它 主张 数字 图 书馆 向 组 件 化 (componentized) 方向 发 展 。 数 字 图 书馆 的 
功能 通过 多 个 软件 组 件 实现 ， 这 样 就 允许 重用 性 和 模块 化 。 发 展 的 重点 已 经 从 代码 实现 转变 
为 组 件 集成 ， 再 变 为 对 具体 要 求 的 自 适应 性 。 

在 ODL 框架 内 ， 广 受 欢迎 的 服务 ， 如 搜索 、 浏 览 和 注释 ， 被 定义 为 自 包含 的 组 件 。 对 
于 每 个 组 件 ，ODL 指定 用 于 与 数据 提供 者 和 其 他 对 等 组 件 交 互 的 接口 。 其 中 每 个 组 件 实现 
为 一 个 开放 档案 (Open Archive), H OAI-PMH 共享 数据 ( 见 17.4.3 节 )。 因 此 ，ODL 
组 件 可 以 作为 数据 或 服务 提供 者 工作 ， 也 可 以 同时 承担 这 两 种 角色 。 组 件 间 的 通信 通过 
OAI-PMH 的 一 个 扩展 版 本 实现 。 大 多 数 扩展 具有 OAI-PMH 不 包括 的 共同 特征 ， 因 为 
OAI-PMH 的 重点 是 元 数据 获取 。 该 框架 包含 的 一 个 重要 功能 是 一 种 将 记录 添加 到 档案 库 的 
机 制 ， 虽 然 不 一 定 要 通过 OALPMH 输出 数据 ， 但 组 件 间 的 互动 是 必 不 可 少 的 。 

通过 在 松散 的 底层 协议 框架 之 上 分 层 堆积 特定 的 语义 ， 各 个 组 件 ODL 协议 具体 化 了 
OAI-PMH, 成 为 OAI-PMH 的 详细 描述 。 例 如 ， 集 合 (set) 参数 在 OAI-PMH 内 没有 规定 
任何 特定 的 含义 ， 因 此 可 以 很 容易 地 用 来 表示 记录 选择 的 又 一 个 标准 。 在 这 种 情况 下 ， 对 于 
支持 搜索 引擎 组 件 的 ODL 协议 ， 查 询 作为 一 种 选择 〈 和 排序 ) 标准 被 岩 人 到 集合 参数 中 。 

在 重 载 搜索 组 件 的 语义 后 ， 有 这 样 一 个 OAI 请 求 的 例子 : 

verb=ListIdentifiers\&set=odlsearch1/computer\%20science/1/10 

对 这 个 查询 的 响应 应 当 包 含 与 “computer science” 这 个 查询 最 相关 的 前 10 个 文档 的 标 
WF. 

类 似 地 ， 为 其 他 服务 也 定制 了 ODL 协议 。ODL 已 应 用 于 许多 数字 图 书馆 项 目 ， 其 实用 
性 、 可 扩展 性 和 可 重用 性 得 到 了 证 明 。 然 而 ， 该 框架 所 呈现 的 可 扩展 性 问题 ， 以 及 所 使 用 的 
OAI-PHM 专 有 扩展 对 互 操作 性 造成 了 一 定 影 响 。 


17.6.6 5S 套件 


不 同 于 其 他 大 多 数 项 目 ，5S 工具 套件 采用 模型 驱动 的 方法 来 创建 和 生成 数字 图 书馆 应 
用 。 这 些 工 具 围 绕 5S 数字 图 书馆 形式 化 框架 而 组 织 [643]， 如 图 17-3 所 示 。 形 式 化 框架 是 
开发 元 模型 (meta-model) 或 数字 图 书馆 构建 语言 的 基础 [640]。 形 式 化 概念 通过 XML 语 
言 的 结构 具体 化 ， 这 种 语言 被 数字 图 书馆 设计 者 用 于 对 特定 和 定制 的 数字 图 书馆 进行 结构 建 
模 。 与 UML 等 通用 建 模 语言 相 比 ， 和 领域 更 接近 的 建 模 语言 称 为 领域 特定 语言 (Domain 
Specific Language, DSL) [1623]. 

直接 用 XML 构造 复杂 模型 是 一 项 艰巨 的 任务 ， 可 能 产生 很 难 理解 和 解释 的 大 文件 。 为 
了 方便 数字 图 书馆 建 模 ， 开 发 了 5SGraph 图 形 化 建 模 工 具 [1786], 5SGraph 允许 数字 图 书 
馆 的 设计 者 用 图 形 方式 建立 数字 图 书馆 模型 ， 并 以 5SL 的 形式 输出 模型 。 该 工具 经 可 用 性 
测试 ， 在 满意 度 、 和 舒适 性 、 正 确 性 、 所 生成 模型 的 完整 性 ， 以 及 易学 性 等 方面 ， 都 产生 了 非 
常 好 的 效果 [1786]。 由 此 产生 的 OSL 代码 是 另 一 种 工具 5SGen 的 输入 。 除 5SL 代码 之 外 ， 
5SGen 还 使 用 了 一 个 基于 Java 的 ODL 组 件 包装 器 ， 产 生 数 字 图 书馆 的 运行 版 本 。 有 趣 的 
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是 ， 该 工具 能 够 为 一 项 服务 以 连贯 的 全 局 行为 整合 多 个 场景 规范 。 但 是 ，5S 套件 的 缺点 在 
于 ， 它 是 为 了 表明 在 数字 图 书馆 构建 上 的 创新 思路 而 开发 的 研究 原型 ， 不 具备 鲁 棒 性 ， 也 不 
支持 其 他 系统 。 


_- 一 一 一 一 
天 => 7 数字 图 书馆 设计 者 





数字 图 书馆 专家 
从 业 人 员 

SL 数 字 图 教师 

书馆 模型 A F 

5 o 
/7 fo HAR 
(= Ja 

5SGen 数字 图 书馆 

图 17-3 5S 套件 


5S 套件 最 近 增 加 的 功能 包括 ;向 导 工 具 ， 它 支持 受 控 的 工作 流 ， 以 配置 组 件 化 的 数字 
图 书馆 [1423]; 评估 数字 图 书馆 质量 的 工具 5SQual [956]; 支持 DSpace 配置 和 定制 的 
SSL 版 本 [658]; 新 的 组 件 池 WS-ODL, 使 用 SOAP 等 Web 服务 协议 进行 组 件 的 相互 通 
信 ， 并 改进 了 ODL 框架 的 一 些 可 扩展 性 和 效率 问题 (1363), 


17.7 数字 图 书馆 案例 研究 
今天 存在 着 数 以 百 计 的 数字 图 书馆 项 目 。 这 里 ， 我 们 将 列举 一 些 有 趣 的 例子 。 


17.7.1 联网 学 位 论文 数字 图 书馆 

联网 学 位 论文 数字 图 书馆 (Networked Digital Library of Theses and Dissertations, 
NDLTD) [1190, 1542] 是 一 个 聚焦 于 电子 学 位 论文 的 数字 图 书馆 全 球 网 络 。 虽 然 当 初 没有 
中 央 控 制 机 构 ， 几 乎 也 没有 预算 ， 但 NDLTD 却 是 一 个 非常 成 功 的 数字 图 书馆 案例 。 

为 了 促进 可 持续 性 ， 需 要 吸收 全 世界 尽 可 能 多 的 机 构 参 与 ， 向 他 们 展示 参与 这 个 过 程 
的 所 有 机 构 将 以 某 种 方式 从 中 受益 。 由 于 不 需要 归档 学 位 论文 的 副本 ， 大 学 图 书馆 将 看 
到 由 此 能 够 产生 巨大 的 经 济 效益 。 研 究 生 院 可 以 通过 电子 工作 流 来 简化 和 降低 提交 和 处 
理 电子 学 位 论文 等 活动 的 费用 。 教 授 和 学 生 也 可 以 使 他 们 的 工作 更 加 受到 关注 。 学 生还 
可 以 学 习 到 更 多 的 有 关 电 子 文档 生产 的 知识 。 这 些 参与 机 构 要 求学 生 对 自己 的 工作 进行 
编目 ， 掌 握 这 些 知识 将 有 利于 他 们 今后 的 学 术 生 源 。 参 与 机 构 也 将 打开 大 门 ， 使 普通 公 
众 了 解 更 多 的 知识 。 

截至 2009 年 10 月 ，NDLTD 在 五 大 洲 有 着 近 100 家 正式 成 员 S 。 联 合 国教 科 文 组 织 也 
支持 这 项 计划 ， 并 资助 了 电子 学 位 论文 创建 指南 ， 以 帮助 各 机 构 设 立 自己 的 电子 学 位 论文 项 
目 。NDLTD 的 联合 目录 包含 近 80 万 条 记录 .。 在 目录 上 建立 了 搜索 、 浏 览 和 聚 类 服务 。 这 


O ” 指 的 是 每 年 交纳 年 费 的 成 员 。 实 际 上 NDLTD 的 合作 单位 有 250 多 家 大 学 。 
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一 计划 也 推广 了 他 们 自己 的 电子 学 位 论文 元 数据 编目 和 共享 标准 。 


17.7.2 国家 科学 数字 图 书馆 


国家 科学 数字 图 书馆 (National Science Digital Library, NSDL) 是 一 个 有 趣 的 研究 案 
例 ， 这 不 仅 是 因为 其 雄心 勃勃 的 目标 一 一 用 他 们 自己 的 话说 , “为 高 品质 的 资源 〈 例 如 ， 内 
SARS) 提供 有 组 织 的 访问 ， 为 各 种 水 平 的 科学 、 技 术 、 工 程 和 数学 教育 提供 创新 性 的 教 
学 工具 ”， 而 且 也 与 它 的 重要 性 有 关 。 该 项 目 由 美国 国家 科学 基金 会 支持 ， 已 资助 了 150 多 
个 项 目 ， 自 成 立 以 来 ， 已 投入 1 亿 多 美元 。NSDL 资助 的 项 目 主 要 包括 三 种 类 型 : 1) BE 
(Pathways) 项 目 ， 这 些 项 目的 目标 是 提供 主要 学 习 者 社区 所 需要 的 内 容 管理 ;2) 服务 
(Services) 项 目 ， 目 标 是 开发 服务 以 支持 用 户 和 资源 库 供 应 者 ， 提 升 图 书馆 的 影响 力 、 效 率 
和 价值 ; 3) 目标 研究 (Targeted Research) 项 目 ， 这 些 项 目的 目标 是 探索 可 直接 适用 于 数 
字 图 书馆 的 馆藏 、 服 务 和 其 他 发 展 方面 的 特定 主题 。 核 心 整合 项 目 有 责任 以 连贯 的 和 可 互 操 
作 的 方式 整合 所 有 这 些 项 目 [959]. 


17.7.3 ETANA-DL 考古 数字 图 书馆 


ETANA-DL 考古 数字 图 书馆 (ETANA-DL Archaeological Digital Library) 是 一 个 很 
好 的 为 特定 领域 (domain-specific) 设计 的 数字 图 书馆 的 例子 。ETANA-DL 作为 一 个 考古 
数字 图 书馆 ， 和 旨 在 收集 、 记 录 、 集 成 和 保存 在 考古 调查 和 发 据 中 收集 的 考古 资料 。 当 前 版 本 
的 ETANA-DL 从 中 东 和 中 东 以 外 的 多 个 考古 遗址 汇集 数据 。 这 些 数 据 包括 雕像 的 照片 、 与 
出 土 的 种 子 和 骨骼 有 关 的 信息 、 探 方 (excavated unit) 的 图 纸 和 地 层 图 等 。 ETANA-DL 也 
为 考古 学 家 和 普通 公众 提供 了 推荐 和 基于 内 容 的 图 像 检索 [1635] 等 服务 。 

ETANA-DL 有 一 点 很 有 趣 : 它 在 开发 中 使 用 了 理论 和 模型 驱动 的 方法 。 它 扩充 了 原来 
的 (最 小 ， 5S 框架， 以 覆盖 考古 学 领域 的 具体 概念 和 数字 图 书馆 集成 问题 L1458] (CH 
17. 8.2 节 )。 为 了 应 对 增强 的 框架 ，5S 工具 套件 也 进行 了 扩充 ， 以 便 部 署 在 所 创建 的 第 一 
个 原型 上 。 例 如 ， 在 全 局 (整个 数字 图 书馆 ) 和 本 地 数据 (个 别 发 据 遗 址 ) 之 间 进 行 模式 转 
换 的 映射 工具 已 被 纳入 该 套件 。 这 些 模 型 作为 扩展 5S 考古 元 模型 的 实例 ， 使 用 5SGraph 创 
Æ [1786]. ETANA-DL 的 经 验 可 用 于 其 他 特定 领域 数字 图 书馆 的 创建 例如， 生态 /生物 
多 样 性 [473] 和 教育 [388」 等 领域 )。 


17.8 趋势 和 研究 问题 


数字 图 书馆 领域 的 许多 研究 挑战 已 经 在 前 面 的 章节 中 讨论 过 。 这 些 挑战 包括 但 不 限于 : 
D 信息 〈 主 要 是 元 数据 ) 提取; D (复杂 ) 数字 对 象 的 新 模型 ; 3) 资源 库 管 理 和 可 扩展 
性 ; O 互 操作 性 ; D 数字 化 保存 ; © 社会 经 济 问 题 ; 7) 数字 图 书馆 架构 等 。 在 本 节 中 ， 
我 们 将 集中 于 两 个 具体 的 挑战 : 数字 图 书馆 的 评价 和 集成 ， 并 提 及 其 他 一 些 先 前 未 曾 讨论 的 
研究 挑战 。 


17.8.1 评价 


什么 样 的 数字 图 书馆 是 “好 ”的 ? 正如 Fuhr 等 人 [604] 所 指出 的 ， 这 个 问题 的 答案 
取决 于 你 问 的 人 是 谁 。 数 字 图 书馆 的 评价 是 困难 的 ， 因 为 这 样 的 评价 涉及 很 多 方面 ， 目 前 还 
缺乏 对 于 如 何在 评价 中 综合 考虑 所 有 这 些 方面 的 共识 。SarasevicL1425] 是 最 早 考 虑 这 个 问 
题 的 人 之 一 。 据 他 分 析 ， 对 于 数字 图 书馆 评价 的 各 种 准则 、 测 度 和 方法 论 ， 目 前 还 没有 达成 
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一 致意 见 。Marchionini[1083] 认为 ， 评 价 的 研究 既 应 该 是 纵向 的 ， 以 获取 更 丰富 更 可 靠 的 
数据 集 ， 从 而 进行 分 析 ; 也 应 该 是 多 方面 的 ， 需 要 利用 各 种 方法 的 组 合 。Fuhr $A [604] 
提出 了 一 个 四 维 的 数字 图 书馆 描述 框架 : 数据 /馆藏 、 系 统 /技术 、 用 户 和 用 法 。[613] 列 出 
了 这 个 领域 的 部 分 领先 成 果 ， 也 包括 对 现 有 评价 过 程 的 分 类 。 

Goncalves 等 人 [644] 认为 ， 以 质量 为 中 心 的 观点 可 以 回答 在 本 节 开 头 提出 的 问题 。 
他 们 以 5S 理论 为 基础 ， 提 出 了 数字 图 书馆 质量 维度 和 指标 的 形式 化 体系 [643]。 对 于 质量 
维度 ， 需 要 考虑 可 访问 性 、 准 确 性 、 完 整 性 、 组 合 性 、 一 致 性 、 连 贯 性 、 有 效 性 、 效 率 、 可 
扩展 性 、 针 对 性 、 可 保存 性 、 相 关 性 、 可 靠 性 、 可 重用 性 、 显 著 性 、 相 似 性 和 及 时 性 等 因 
素 。 对 于 评价 指标 ， 可 以 考虑 响应 时 间 〈 和 效率 有 关 )、 迁 移 成 本 〈 和 可 保存 性 有 关 )， 以 及 
IRS AMR CW EAT SE HED. Goncalves 等 人 还 讨论 了 他 们 所 提出 的 数字 图 书馆 质量 维 
度 与 信息 生命 周期 模型 的 一 个 扩充 版 本 之 间 的 关联 ， 该 模型 在 一 次 研讨 会 上 得 到 了 一 致 的 认 
可 [233]. Shen[ 1460] 在 Gonçalves 等 人 的 工作 基础 上 ， 着 重 研究 用 法 方面 的 评价 ， 建 立 
了 信息 系统 和 信息 搜寻 的 采纳 模型 ， 提 出 了 从 各 个 方面 看 待 数 字 图 书馆 成 功 (DL success) 
的 整体 视角 。 

归根 结 底 ， 唯 一 的 共识 就 是 ， 数 字 图 书馆 的 研究 尚 处 于 早期 阶段 ， 对 数字 图 书馆 本 身 的 


广泛 接受 和 部 署 也 才刚 刚 起 步 ， 需 要 相当 长 的 时 间 才 能 对 评价 方法 取得 一 致 [613]。 虽 然 如 . 


此 ， 评 价 仍 是 这 类 系统 发 展 和 被 接受 的 关键 。 


17. 8.2 集成 


数字 图 书馆 的 研究 有 一 个 耐人寻味 的 方面 ， 即 在 基本 技术 和 大 规模 集成 两 个 层次 都 存在 着 
挑战 。10 年 来 ， 政 府 和 私人 资金 对 数字 图 书馆 研究 项 目 给 予 了 资助 ， 在 基本 技术 层次 上 取得 
了 重要 的 成 果 。 但 在 大 规模 集成 这 个 层次 上 的 成 果 则 可 以 说 是 不 太 明 显 。“ 数 字 图 书馆 集成 ” 
的 概念 比 数据 的 互 操作 性 要 全 面 得 多 ， 即 便 如 此 ， 这 一 概念 仍然 含糊 不 清 ， 存 在 着 不 同 的 方 
法 ， 并 提出 了 不 同 的 解决 方案 。 数 字 图 书馆 的 集成 工作 主要 集中 解决 三 个 问题 [1461]: 

D 分 布 性 : 地 理 范 围 广 阔 。 

2) FRE: 在 技术 层次 〈 例 如 ， 硬 件 平台 、 操 作 系统 和 编程 语言 等 ) 和 概念 层次 H 
如 ， 对 相同 真实 世界 实体 的 不 同 的 理解 和 建 模 ) 的 区 别 。 

D 自主 性 : 组 件 是 在 何 种 程度 上 自给 自足 ， 而 不 只 是 作为 较 大 系统 的 组 成 部 分 。 

我 们 认为 ,“ 数 字 图 书馆 集成 ”意味 着 隐藏 分 布 性 和 异 质 性 ， 同 时 激发 可 见 组 件 的 自主 
性 (至少 在 一 定 程度 上 )。 

许多 数字 图 书馆 由 不 同 的 自治 组 织 自主 开发 ， 事 先 并 无 计划 对 自己 的 数据 和 功能 提供 开 
放 且 易 用 的 自动 访问 机 制 。 不 能 以 无 锋 和 透明 的 方式 访问 跨 数 字 图 书馆 的 知识 ， 是 知识 共享 
的 主要 障碍 。 数 字 图 书馆 集成 的 目标 是 和 谐 利用 各 种 自治 的 数字 图 书馆 ， 从 这 些 “ 岛 屿 ” 获 
得 知识 。 与 解决 方案 相 比 ， 集 成 的 需求 是 众所周知 的 (1461, 960]. 

数字 图 书馆 可 以 在 信息 和 服务 等 不 同 层次 进行 集成 。 集 成 信息 使 得 分 布 式 异 构 资源 库 成 
为 一 个 整体 。 集 成 服务 通过 更 连贯 、 更 易 用 的 接口 ， 隐 藏 了 被 集成 的 数字 图 书馆 的 语法 和 语 
义 区 别 ， 为 用 户 提供 更 全 面 的 数字 图 书馆 资源 使 用 。 虽 然 对 数字 图 书馆 集成 已 有 许多 努力 ， 
但 大 多 数 还 是 零 殴 碎 打 的 即兴 方法 。 


17. 8.3 其 他 研究 挑战 
其 他 艰巨 的 研究 挑战 体现 在 以 下 领域 : 
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。 数字 图 书馆 参考 模型 的 创建 : 尽管 在 过 去 10 年 中 ， 本 领域 取得 了 很 大 的 进展 ， 但 在 
数字 图 书馆 是 什么 ， 它 们 必须 提供 什么 功能 方面 ， 并 未 取得 一 致意 见 。 缺 乏 协商 一 
致 的 参考 模型 为 本 领域 整体 奠定 基础 ， 使 得 已 经 做 出 的 工作 很 难 进行 比较 和 整合 ， 
得 到 的 成 果 也 很 难 共享 和 重用 ， 从 而 放 缓 了 发 展 步伐 。 尽管 在 这 方面 已 有 一 些 初步 

734 的 努力 [643，489]， 但 还 有 很 多 工作 需要 做 。 

。 引用 管理 是 现代 化 数字 图 书馆 的 一 个 中 心 环节 。 引 用 是 衡量 特定 科学 文章 和 研究 报 
告 影响 力 或 意义 的 根本 证 据 。 评 价 研究 人 员 的 工作 ， 确 定 其 是 否 应 该 获得 晋升 或 者 
基金 资助 ， 可 以 利用 引用 作为 评估 其 能 力 和 影响 力 的 一 个 重要 证 据 。 引 用 也 可 以 作 
为 信息 检索 任务 的 一 项 辅助 手段 ， 如 自动 文档 分 类 [313，432]、 索 引 和 排序 C988] 
和 质量 评价 [644] 等 。 在 更 广泛 意义 上 的 引用 9 是 数字 书目 及 图 书馆 项 目 (Digital 
Bibliography & Library Project, DBLP)[478] 和 计算 机 科学 参考 文献 (Computer 
Science Bibliography)[(460] 等 重要 项 目的 基础 。 数 字 图 书馆 中 的 引用 管理 涉及 这 些 
方面 D 信息 提取 方法 ,以便 在 任何 给 定 的 格式 下 正确 提取 引文 部 分 ; 2) 数据 清 
洁 和 纠 错 ， 例 如 ， 由 于 同一 作者 在 论著 中 使 用 了 多 个 名 字 ， 或 者 多 个 作者 重 名 ， 使 
得 论文 的 作者 被 错误 分 配 ， 或 者 同一 研究 人 员 的 成 果 被 错误 分 割 ， 这 个 问题 称 为 名 
FÑ (name disambiguation); 3) 在 数据 集成 或 数据 输入 任务 后 去 除 重复 记录 。 
这 个 任务 称 为 重复 记录 检测 (record duplicate detection) 或 兄 余 消除 Cdeduplica- 
tion) 。 事 实 上 ， 由 于 需要 从 多 个 资源 库 汇 集 内 容 ， 这 是 一 个 更 广泛 的 问题 ， 在 数字 
图 书馆 中 很 常见 。 

。 个 性 化 : 数字 图 书馆 在 本 质 上 是 以 社区 为 本 的 ， 可 进一步 支持 根据 个 人 的 偏好 和 特 
性 来 调整 内 容 和 服务 。 此 外 ， 这 样 的 个 性 化 还 可 以 基于 其 他 因素 ， 例 如 情境 、 当 前 
的 任务 、 时 间 、 地 点 、 个 人 和 数字 图 书馆 的 交互 历史 ， 以 及 其 他 一 系列 虽然 没有 明 
确 给 出 、 但 却 隐 含 在 互动 过 程 和 阅 边 环境 之 中 的 因素 。 需 要 开发 的 新 技术 包括 在 特 
定 情境 捕获 用 户 对 于 特定 资源 的 注意 力 ， 识 别 和 挖 括 用 户 行为 模式 等 。 


17.9 文献 讨论 

该 领域 的 主要 书籍 是 Lesk 的 《Understanding Digital Libraries) [1006]， 现 已 出 版 了 
第 2 版 ;Arms 的 《Digital Libraries》[69]， 以 及 Witten 关于 Greenstone 的 书籍 《Manag- 
ing Gigabytes》[1704j。 自 该 领域 出 现 以 来 ， 已 经 出 版 了 一 些 概述 和 综述 ， 例 如 在 《Annual 
Review of Information Science and Technology》 发 表 的 两 篇 综述 [1579，162]。《DLib》 杂 
志 [59] 是 了 解 该 领域 近期 发 展 的 一 个 极 好 的 信息 来 源 。《Communications of the ACM), 
«IEEE Computer) #1 «Information Processing and Management》 等 期 刊 都 出 版 过 数字 图 书 
馆 的 专辑 L1221，1222，1223，808，813]。 该 领域 最 主要 的 会 议 是 ACM/IEEE 数字 图 书 
馆 联 席 会 议 (ACM/IEEE Joint Conference on Digital Libraries，JCDL) ， 该 会 议 于 2001 年 
起 由 这 两 个 学 会 单独 组 织 的 会 议 合并 而 成 。 另 外 ， 还 有 一 些 地 区 和 国家 级 的 会 议 ， 如 欧洲 数 
字 图 书馆 研究 和 先进 技术 会 议 (European Conference on Research and Advanced Technology 
for Digital Libraries，ECDL)〉 和 亚洲 数字 图 书馆 国际 会 议 (International Conference on 

Asian Digital Libraries, ICADL). 


O 此 处 解释 为 作者 名 称 、 标 题 、 出 版 地 点 或 年 份 等 与 特定 文章 有 关 的 书目 信息 。 
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A.1 介绍 


为 了 提供 网 站 内 容 检 索 ， 可 以 使 用 商业 搜索 引擎 ， 也 可 以 使 用 开源 搜索 引擎 。 对 于 绝 大 
多 数 网 站 而 言 ， 使 用 商业 搜索 引擎 不 是 一 个 可 行 的 选择 ， 或 者 因为 经 济 厌 因 ， 或 者 因为 商业 
引擎 更 适用 于 较 大 流量 的 网 站 。 鉴 于 此 ， 开 源 搜索 引擎 也 许可 以 对 中 、 小 流量 的 网 站 提供 一 
个 蔡 代 方案 ， 尤 其 是 ， 因 为 它们 提供 了 这 些 网 站 所 需要 的 大 部 分 功能 。 此 外 ， 它 们 还 带 来 开 
源 运动 所 带 来 的 好 处 ， 这 就 是 ， 免费 、 积 极 的 软件 维护 ， 以 及 对 特殊 应 用 可 以 自 定义 代 
码 等 。 

目前 ， 有 很 多 开源 搜索 引擎 可 以 使 用 ， 每 种 搜索 引擎 都 有 不 同 的 特性 ， 决 定 将 哪个 引 
擎 安装 到 网 站 上 时 需要 考虑 这 些 特性 [1776]。 这 些 搜索 引擎 可 以 根据 多 种 方式 进行 分 
类 ， 包 括 使 用 的 编程 语言 、 如 何 保存 索引 〈 倒 排 索引 、 数 据 库 或 者 其 他 索引 结构 ) 、 搜 索 
能 力 〈 布 尔 检索 、 模 糊 检 索 、 使 用 词 干 提取 )、 排 序 方法 、 可 以 索引 的 文件 种 类 (HT- 
ML、PDF、 纯 文本 )， 以 及 在 线 增 量 索引 的 可 能 性 。 其 他 需要 考虑 的 重要 因素 包括 软件 的 
最 后 更 新 日 期 、 目 前 版 本 ， 以 及 负责 维护 搜索 引擎 的 项 目的 活跃 水 平 。 例 如 ， 一 个 开源 
搜索 引 葡 最 近 没 有 更 新 ， 可 能 会 影响 为 了 网 站 的 特殊 应 用 而 定制 其 代码 。 此 外 ， 还 要 重 
点 考虑 搜索 引擎 在 不 同 负载 下 的 性 能 ， 以 及 随 着 数据 量 的 增 大 性 能 如 何 下 降 。 例 如 ， 我 
们 可 能 需要 分 析 索 引 时 间 与 数据 量 的 关系 、 索 引 期 间 所 需要 的 资源 量 ， 以 及 检索 阶段 的 
性 能 。 

在 本 附录 中 ， 我 们 提供 了 据 我 们 所 知 的 、 最 详尽 的 开源 搜索 引擎 比较 。 我 们 仔细 分 析 了 
27 种 不 同 的 搜索 引擎 ， 并 在 以 下 方面 对 它们 进行 了 比较 : 索引 时 间 、 检 索性 能 ， 以 及 这 些 
指标 在 不 同 种 类 查询 和 不 同文 档 集 下 如 何 变 化 。 我 们 的 目标 是 对 哪 种 开源 搜索 引擎 最 适合 给 
定 的 应 用 提供 决策 支持 。 

在 A.2 节 ， 我 们 介绍 本 章 中 所 使 用 的 搜索 引擎 。 在 A. 3 节 ， 我 们 介绍 实验 所 使 用 的 方 
法 。 在 A.4.1 节 ~A.4.4 节 ， 我 们 给 出 了 不 同 实 验 得 出 的 结果 。 在 A.4.5 节 ， 我 们 给 出 了 
结果 的 分 析 。 最 后 A 5 节 进 行 了 总 结 。 


A.2 搜索 引擎 


目前 有 一 些 免费 的 搜索 引擎 可 以 下 载 和 使 用 ， 其 中 许多 是 开源 的 。 这 里 ， 我 们 仔细 分 析 
了 以 下 27 个 搜索 引擎 : 

ASPSeek, BBDBot, Datapark, ebhath, Eureka, HtDig, Indri, ISearch, Lucene, 
Managing Gigabytes (MG). MG4J, mnoGoSearch, MPS Information Server, Namazu, 
Nutch, Omega, OmniFind IBM Yahoo! Ed., OpenFTS, PLWeb, SWISH-E, SWISH ++, 
Terrier, WAIS/freeWAIS,. WebGlimpse, XML Query Engine, Zebra 和 Zettair, #2 A-1 
列 出 了 它们 的 相关 细节 。 
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RAI 我 们 初步 考虑 的 27 个 开源 搜索 引 革 (2009 年 年 底 给 出 的 最 新 版 本 ) 




































ASPSeek 2002 项 目 中 止 

BBDBot 2002 最 后 更 新 于 2002 年 ， 之 后 没有 任 
何 活动 

Datapark 13/03/2006 

ebhath N/A 网 站 不 存在 

Eureka N/A N/A 网 站 不 工作 

HtDig (ht://Dig) 16/06/2004 3. 2. Ob6 

Indri 22/06/2009 2.10 

1Search 02/11/2000 1.75 根据 网 站 说 明 ， 虽 然 软件 还 能 二 
载 ， 但 已 不 再 活 唉 地 维护 

Lucene 05/11/2009 2.9.1 

Managing Gigabytes (MG) 01/08/1999 1.2.1 

MG4J 06/06/2009 3.0 

mnoGoSearch 29/10/2009 3.3.9 

MPS Inform. Server 01/09/2000 6.0 

Namazu 23/09/2009 2.0. 20 

Nutch 23/03/2009 10 Lucene 项 目的 子 项 日 

Omega 08/04/2006 0.9.5 Omega 是 一 个 使 用 了 Xapian 库 的 应 用 

OmniFind IBM Yahoo! 2009 8.4.2 

OpenFTS 05/04/2005 0. 39 

PLWeb 16/03/1999 3.0.4 在 2000 4f, AOL 搜索 发 信 宣 称 ， 
代码 不 再 可 用 

SWISH-E 04/04/2009 2.4.7 

SWISH++ 25/01/2008 6.1.5 

Terrier 29/01/2009 2.2.1 

WAIS & freeWAIS N/A N/A 软件 过 期 

WebGlimpse 19/12/2008 4.18.6 使 用 Glimpse 作为 索引 器 

XML Query Engine 02/04/2005 0. 69 这 是 XML 搜索 引擎 

Zebra 05/11/2009 2.0.42 这 是 XML 搜索 引擎 





Zettair 09/2006 





A.2.1 搜索 引擎 初步 选择 


根据 收集 的 信息 ， 在 开始 阶段 就 可 以 放弃 一 些 项 目 。 放 弃 一 个 搜索 引擎 的 原因 包括 : 项 
目 己 经 过 期 〈 例 如 ， 最 后 更 新 日 期 在 2000 年 以 前 )， 项目 不 再 维护 或 已 经 无 效 ， 不 能 从 项 目 
中 得 到 信息 。 由 于 这 些 原因 ， 我 们 在 开始 阶段 放弃 了 以 下 引擎 : 

* ASPSeek 

。 BBDBot 

。 ebhath 

e Eureka 

e Search 

。 MPS Information Server 

e PLWeb 

e WAIS/freeWAIS 

我 们 还 剩 下 19 个 引擎 进行 后 续 研 究 。 

在 某 些 情况 下 ， 一 个 项 目 被 拒绝 是 因为 其 他 因素 。 例 如 ， 虽 然 MG 项 目 (“Managing 
Gigabytes” 中 给 出 了 介绍 [1709]) 构成 了 这 个 领域 中 重要 的 工作 之 一 ， 它 不 再 被 继续 考虑 
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是 因为 这 个 引擎 自 1999 年 后 就 没有 更 新 。 另 外 一 个 特殊 的 例子 是 Nutch MA. Nutch 搜索 
引擎 是 基于 Lucene 搜索 引擎 的 ， 它 只 是 使 用 了 由 Lucene 提供 的 API。 由 于 这 个 原因 ， 我 们 
只 需要 对 Lucene 项 目 进行 分 析 。 此 外 ， 放 弃 XMLQuery Engine M Zebra， 是 因为 它们 重点 
在 结构 化 数据 (XML)， 而 不 是 半 结 构 化 数据 ， 如 HTML。 因 此 ， 我 们 进一步 放弃 了 以 下 
的 引擎 : 
。 Managing Gigabytes (MG) 
。 Nutch 
¢ XML Query Engine 
e Zebra 
BF 15 个 引擎 进行 后 续 研 究 。 
关于 索引 时 间 的 初步 试验 表明 ， 有 些 引擎 花费 了 3 一 6 倍 时 间 来 索引 标准 参考 集 ， 即 使 
这 些 集合 很 小 。 因 此 ， 我 们 不 需要 在 更 大 规模 的 性 能 实验 中 考虑 它们 。 在 这 一 阶段 去 除 的 引 
E.: 
。 Datapark 
。 mnoGoSearch 
e Namazu 
。 OpenFTS 
« Glimpse 
ARF 10 个 引擎 进行 后 续 研 究 。 
也 就 是 说 ， 从 最 初 的 27 个 搜索 引擎 ， 我 们 根据 一 组 初步 选择 标准 排除 了 17 个 。 这 些 标 
准 代表 了 开源 搜索 引擎 ， 作 为 一 个 可 行 性 选择 需要 满足 的 重要 需求 。 因 此， 我 们 留 下 了 以 下 
10 个 搜索 引擎 进行 进一步 研究 : 
。 HtDig 
。 Indri 
e Lucene 
。 MG4]J 
* Omega 
¢ OmniFind 
。 SWISH-E 
e SWISH++ 
e Terrier 
。 Zettair 
接 下 来 ， 对 这 10 个 引擎 进行 简单 的 描述 ， 并 说 明 我 们 在 比较 时 所 使 用 的 版 本 ， 
。 HtDig 一 一 一 系列 用 来 索引 和 搜索 网 站 的 工具 [783]。 它 提供 了 命令 行 工 具 和 CGI 界面 来 
进行 搜索 。 虽 然 有 新 的 版 本 ， 但 是 根据 网 站 的 介绍 ， 我 们 使 用 的 版 本 3. 1. 6 是 最 快 的 一 个 。 
。 indri 一 一 使 用 Lemur [1003] 项 目 构建 的 搜索 引擎 ， 它 是 为 语言 模型 和 信息 检索 研 
究 [809] 而 设计 的 工具 。 这 个 项 目 是 由 马萨诸塞 大 学 和 卡 内 基 梅 隆 大 学 联合 开发 的 
(版 本 2. 4) 。 
。 Lucene 一 一 文本 搜索 引擎 工具 库 ， 作 为 Apache 软件 基金 会 产品 的 一 部 分 [1061]。 
因为 它 是 一 个 工具 库 ， 其 他 一 些 应 用 也 使 用 它 ， 例 如 Nutch WA [1217]. ERN 
的 工作 中 ， 使 用 该 工具 库 所 捆绑 的 简单 应 用 来 索引 文档 集 (版 本 1. 9. 1) 。 
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MG4J 一 一 (Managing Gigabytes for Java) 是 一 个 面向 大 规模 文档 集 的 全 文 索引 器 ， 
由 意大利 米兰 大 学 开发 【1074]。 作 为 副产品 ， 它 们 提供 处 理 字符 串 、 位 级 别 IO 
等 优化 的 通用 类 库 (版 本 1. 0. 1) 。 

Omega 架构 在 Xapian [1725] 上 的 一 个 应 用 ， 它 是 一 个 开源 概率 信息 检索 工具 
库 。Xapian 使 用 CT 十 编写 ， 但 是 可 以 在 不 同 的 语言 上 调用 (Perl, Python, PHP, 
Java, TCL, C#) (版 本 0. 9. 5) 。 

IBM Omnifind Yahoo! Edition 一 一 可 以 快速 部 署 的 企业 网 搜索 软件 [804]。 它 结合 了 基 
于 Lucene 搜索 引擎 的 企业 网 搜索 和 基于 Yahoo! 搜索 引擎 的 Web 搜索 (MA 8. 4. 0) 。 
SWISH-E (Simple Web Indexing System for Humans - Enhanced) 是 一 个 开源 索引 
和 检索 引擎 [1550], ER SWISH 的 扩展 版 本 ， 由 Kevin Hughes 编写 (版 本 2. 4. 3). 
SWISH 十 十 一 一 基于 Swish-E 的 索引 和 检索 工具 ， 但 是 完全 由 C 十 十 重 写 。 它 具有 
Swish-E 的 绝 大 部 分 特征 [1549]， 但 不 是 全 部 〈 版 本 6.1.4). 

Terrier—— (TERabyte RetrIEveR) 是 一 个 模块 化 平台 ， 提 供 了 面向 Web、 企 业 网 
和 桌面 搜索 引擎 的 快速 开发 ， 由 苏格兰 格拉 斯 哥 大 学 开发 [1574]。 它 包含 了 索引 、 
咨询 和 评价 标准 TREC 文档 集 等 功能 (版 本 1.0.2). 

Zettair (之 前 叫做 Lucy) 由 RMIT 大 学 搜索 引擎 组 开发 的 文本 检索 引擎 ， 它 可 
以 处 理 大 规模 文本 〈 版 本 0. 9. 3) 。 


特征 











我 们 选择 的 每 个 搜索 引擎 都 可 以 用 它们 实现 的 特征 和 它们 在 不 同 场景 下 的 性 能 来 刻画 。 
我 们 选择 了 以 下 13 个 通用 特征 用 来 描述 每 个 搜索 引擎 


存储 (Storage) 表示 索引 器 采用 的 存储 索引 的 方法 ， 可 以 使 用 数据 库 引 擎 或 者 
简单 的 文件 结构 〈 例 如 ， 倒 排 索引 ) 。 

增 量 索引 (Incremental Index) 一 一 表示 索引 器 是 否 具 有 在 已 有 索引 上 增加 文件 ， 
而 不 需要 重新 生成 整个 索引 的 能 力 。 

结果 摘录 (Results Excerpt) 一 一 表示 引擎 是 否 可 以 利用 结果 生成 摘录 (片段)。 
结果 模板 (Results Template) 一 一 有 些 引 擎 可 以 使 用 模板 对 查询 结果 进行 分 析 。 
禁用 词 (Stop words) 一 一 表示 索引 器 是 否 可 以 使 用 禁用 词 列表 来 排除 某 些 出 现 频率 
过 高 的 项 。 
文件 类 型 (Filetype) 
式 应 该 是 HTML, 
词 干 提取 (Stemming) 一 一 表示 索引 器 /检索 器 是 否 具 有 单词 的 词 干 提 取 能 力 。 
模糊 检索 (Fuzzy Search) 表示 引擎 是 否 可 以 用 模糊 的 方式 处 理 查询 ， 即 不 需要 
与 查询 完全 匹配 。 

排列 (Sort) 将 结果 按照 多 种 标准 进行 排列 。 

排序 (Ranking) 一 一 表示 引擎 是 否 可 以 基于 排序 函数 产生 结果 。 

检索 类 型 (Search Type) 搜索 引擎 可 以 处 理 的 检索 类 型 ， 以 及 是 否 可 以 接受 查 
WHER. 

索引 器 语言 (Indexer Language) 索引 器 所 使 用 的 编程 语言 。 这 个 信息 对 扩展 引 
擎 所 提供 的 功能 或 者 将 它 整 合 到 已 有 平台 是 有 用 的 。 

版 权 (License) 决定 使 用 和 修改 索引 器 和 搜索 引擎 的 条 件 。 








索引 器 可 以 分 析 的 文件 类 型 。 引 擎 可 以 分 析 的 标准 文件 格 

















对 于 这 10 个 在 我 们 最 终 列表 中 的 引擎 ， 我们 检查 了 它们 符合 上 面 所 列 出 的 哪些 特征 。 
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表 A-2 总 结 了 这 些 信息 ， 给 出 了 10 个 引擎 的 初步 比较 。 为 了 支持 从 它们 中 进一步 选择 ， 需 
要 用 性 能 比较 的 结果 来 补充 这 些 信息 ， 接 下 来 ,我们 将 进行 讨论 。 


表 A-2 最 终 列表 中 的 10 个 开源 搜索 引擎 的 主要 特征 


存储 | 增 量 | 结果 | 结果 Ls Ea ia 文件 类 型 词 干 | 模糊 | 排列 排序 搜索 类 型 | 索引 器 | 版权 
Cf) | 索引 | 摘录 | 模板 | (e) 提取 | 检索 | (dD (ec) “| 语言 b| (ad 
1 a E E 1 


’ 























= 
cn 
心 


HtDig 
Indri 





















E |1，2 E E |2 

a E E |1. 2, E E l, E |1, 2,3| 2 3 
Lucene 口 口 E |1, 2, 4 | E 1 E |1, 2,3| 3 1 
MG4]J B a E |1，2 a O j1 Mii, 2,3) 3 6 
Omega o 图 Mm |1，2，4，5 E o 1 E |1,2,3| 2 4 
OmniFind E a E |l. 2,3,4,5] B E |i E |i, 2,3] 3 5 
SWISH-E o O E |1，2，3 B E 1, a 1, 2, 3 1 4 
SWISH++ 口 口 E |1, 2 E Oo 1 E 1, 2, 3 2 4 
Terrier 口 口 E |1, 2, 3, 4, 5 E E 1 Mii, 2, 3 3 7 

国 口 E |1，2 E Oo |1 E | 1， 3] 1 2 








Zettair 


N 





(a) 1: Apache, 2: BSD, 3: CMU, 4: GPL, 5: IBM, 6: LGPL, 7: MPL, 8: Comm, 9: Free 

(b) 1: C, 2: C++, 3: Java, 4: Perl, 5: PHP, 6; Tel 

(Cc) 1: MiB, 2: WR, 3: 通配符 

(d) 1: 排序 ，2: 日期， 3: 无 

Ce) 1; HTML, 2; plain text, 3; XML, 4: PDF, 5; PS BAA 
Cf) 1, 文件 ，2: 数据 库 口 不 可 用 


A. 2.3 评价 


正如 之 前 所 讨论 的 ， 每 个 搜索 引擎 都 有 多 个 与 其 他 搜索 引擎 不 同 的 特性 。 为 了 以 不 同 的 方 
式 对 搜索 引擎 进行 比较 ， 我 们 定义 了 一 个 评价 过 程 ， 目 的 是 给 每 个 搜索 引擎 一 个 客观 的 等 级 得 
分 (grade score) 。 然 而 ， 最 终 的 选择 依赖 于 应 用 的 特殊 需求 。 例 如 ， 可 以 从 可 用 性 角度 评价 ， 
即 采用 黑 盒 方式 使 用 这 个 引擎 的 简单 程度 ， 对 引擎 进行 定制 的 简易 程度 。 举 例 来 说 ，Lucene 的 
目的 是 提供 索引 和 搜索 的 API, 但是， 如 果 你 需要 将 Lucene 作为 一 个 前 端 系 统 ， 那 么 你 必须 
关注 子 项 目 Nutch。 另 一 种 可 能 是 分 析 这 些 引擎 共同 的 特性 ， 例 如 索引 和 检索 性 能 ， 因 为 这 些 
特征 更 容易 分 析 。 然 而 ， 必 须 仔 细 考 虑 它们 ， 因 为 它们 不 是 唯一 可 用 的 特性 。 742 
我 们 选择 对 一 些 可 以 量化 比较 的 参数 进行 说 明 ， 例 如 ， 索 引 时 间 、 索 引 大 小 、 资 源 消耗 、 
查询 处 理 时 间 ， 和 精度 -召回 率 图 。 最 后 ,我 们 介绍 多 个 用 例 和 每 个 引擎 可 能 的 替代 方案 。 


A.3 方法 


这 个 研究 的 主要 目的 就 是 比较 开源 搜索 引擎 在 不 同 场景 下 的 性 能 〈 例 如 ， 使 用 不 同 的 文 
档 集 大 小 ?， 利 用 通常 的 标准 对 它们 进行 评价 。 为 了 进行 这 个 基准 测试 ， 我 们 的 研究 分 为 以 
FAR: 

1) 得 到 由 HTML 表示 的 文档 集 。 

2) 确定 一 个 用 来 监测 搜索 引擎 性 能 的 工具 。 

D 安装 和 配置 每 个 搜索 引擎 。 

4) 索引 每 个 文档 集 。 

D 处 理 和 分 析 索 引 结果 。 

6) 执行 一 组 预先 选择 的 检索 任务 。 

7) 处 理 和 分 析 检 索 结果 。 


— 


w we 


N 
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A.3.1 文档 集 


为 了 比较 不 同 的 搜索 引擎 ， 我 们 考虑 不 同 大 小 的 文档 集 ， 从 不 到 1GB 的 文本 到 10GB 
以 上 的 文本 。 另 一 个 要 求 是 使 用 的 文件 类 型 。 在 这 方面 ， 常 见 的 要 求 支持 的 文件 类 型 是 
HTML, 为 了 产生 大 规模 的 HTML 文档 集 ， 可 以 使 用 疏 虫 。 但 是 ， 因 为 我 们 的 目的 是 搜索 
引擎 的 索引 和 排序 能 力 ， 所 以 我 们 决定 使 用 本 地 文档 集 。 

第 一 个 本 地 文档 集 是 TREC-4， 它 包含 从 《The Wall Street Journal) (华尔街 日 报 )、 
«Associated Press》( 美 联 社 )、《Los Angeles Times) (洛杉矶 时 报 ) 和 其 他 出 版 物 中 抽取 的 
一 些 文件 。 每 个 文件 由 SGML 格式 构成 ， 所 以 需要 分 析 它 们 来 产生 HTML 文档 集 。 接 下 
来 ， 用 这 个 文档 集 产生 了 以 下 三 个 子 集 : 

。 第 一 个 子 集 包含 1549 篇 文档 ， 占 用 750MB ( 浪 字 节 )。 

。 第 二 个 子 集 包含 3193 篇 文档 ， 占 用 1. 6GB FH). 

。 第 三 个 子 集 包含 5572 篇 文档 ， 占 用 2. 7GB。 

743] ”我们 把 它们 称 为 “三 个 TREC-4 FH” (three TREC-4 subcollections)。 

为 了 进一步 扩大 上 比较 的 范围 ， 我 们 还 考虑 了 更 大 规模 的 文档 集 ，WT10g TREC Web 
(WebTREC) 语料库 。 它 包含 1692 096 篇 文档 ， 存 放 在 5117 个 文件 中 ， 总 计 占 用 10. 2GB。 
这 个 文档 集合 使 用 要 加 方式 ， 产 生 以 下 4 个 子 集 : 

。 第 一 个 子 集 占用 2. 4GB。 

。 第 二 个 子 集 占用 4. 8GB。 

。 第 三 个 子 集 占用 7. 2GB. 

。 第 四 个 子 集 占 用 10. 2GB。 

我 们 把 它们 称 为 “四 个 WT10g 子 集 ” (four WT10g subcollections) 。 


A. 3.2 评价 测试 


我 们 在 选择 的 文档 集 上 执行 了 四 个 不 同 的 评价 测试 。 这 些 测试 是 : 

。 Test A (测试 A)- 索 引 。 第 一 个 测试 包括 每 个 搜索 引擎 对 文档 集 构建 索引 ， 记 录 花 费 
的 时 间 和 资源 消耗 ， 即 内 存 和 CPU. 

。 Test B (测试 B)- 增 量 索引 。 第 二 个 测试 包括 比较 构建 增 量 索引 的 时 间 需 求 。 

e Test C (测试 C)- 搜 索性 能 。 第 三 个 测试 包括 比较 引擎 的 查询 处 理 时 间 ， 并 分 析 它 们 
在 每 个 文档 集 上 的 性 能 。 

。 TestD (测试 D)- 搜 索 质 量 。 第 四 个 测试 包括 分 析 每 个 引擎 产生 的 结果 质量 ， 使 用 精 
度 -召回 率 指标 。 

最 后 ， 我 们 根据 所 有 引擎 完 成 上 述 测试 的 情况 来 比较 它们 。 


A. 3.3 实验 设置 
我 们 进行 测试 所 使 用 的 计算 机 的 主要 参数 为 : 
。 Pentium 4HT 3. 2 GHz 处 理 器 。 
。 2.0GB 内 存 。 
。 SATA 硬盘 。 
744 e Debian Linux (Kernel 2.6.15), 


附录 A 开源 搜索 引擎 + 541 


为 了 分 析 每 种 引擎 在 处 理 索引 时 的 资源 消耗 ， 需 要 使 用 监控 工具 。 有 一 些 开源 的 监控 
工具 可 以 使 用 ， 例 如 “Load Monitor” [1045] 和 “QOS”[1310]。 然 而 ， 对 我 们 这 个 工 
作 ， 简 单 的 监控 工具 已 经 足够 。 所 以 ， 我 们 实现 了 一 个 简单 的 后 台 程 序 来 记录 给 定 进 程 
的 CPU 和 内 存 的 消耗 情况 。 之 后 ， 对 收集 的 这 些 信 息 进 行 分 析 ， 生 成 可 以 用 Gnuplot 显 
示 的 数据 。 


A. 4 实验 结果 


A. 4. 1 Test A- 索 引 


我 们 首先 考虑 索引 三 个 TREC-4 子 集 的 问题 。 它 们 都 比较 小 ， 为 10 个 引擎 中 哪些 具有 
好 的 索引 能 力 ， 哪 些 没 有 提供 了 初步 了 解 。 接 下 来 ,我 们 考虑 索引 四 个 WTl0g 子 集 的 
问题 。 

1. 索引 三 个 TREC-4 子 集 

在 本 阶段 的 测试 包含 使 用 所 有 搜索 引擎 索引 三 个 TREC-4 子 集 ， 记 录 花 费时 间 和 资源 消 
耗 (CPU、 内 存 和 硬盘 上 索引 大 小 )。 在 每 个 阶段 之 后 ， 分 析 由 此 产生 的 时 间 ， 排 除 不 能 在 
合理 时 间 完 成 索引 的 搜索 引擎 。 根据 比较 分 析 的 结果 ， 我们 非 严 格 地 定义 了 “具有 合理 
(reasonable) 索引 时 间 的 索引 器 ”。 

(1) 索引 时 间 

图 A-1 给 出 了 在 三 个 TREC-4 子 集 上 的 索引 时 间 。 对 于 750MB 文档 集 ， 搜 索引 擎 的 索 
引 时 间 在 1 一 32 分 钟 。 对 于 1. 6GB 文档 集 ， 它 们 的 索引 时 间 从 2 分 钟 一 1 小 时 。 对 于 2. 7GB 
文档 集 ， 它 们 的 索引 时 间 从 5 分 钟 一 1 小 时 ， 但 OmniFind 和 Omega 引擎 出 现 异 常 。Om- 
niFind 的 索引 时 间 超 过 2 小 时 ，Omega 的 索引 时 间 超 过 了 17 小 时 ! 
索引 时 间 
| | 





1000 t::: 


时 间 (分 ) 














HtDig Indri Lucene MG4J Omega Omnifind SwishE Swish++ Terrier Zettair 
搜索 引擎 


图 A-1 Test A- 索 引 。 索 引 三 个 TREC-4 子 集 的 时 间 
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也 就 是 说 ，10 个 引擎 中 ，8 个 引擎 对 TREC-4 子 集 索 引 任务 时 ， 有 合理 的 索引 时 间 ， 

e HtDig 

e Indri 

e Lucene 

e MG4J 

。 Swish-E 

。 Swish 十 十 

e Terrier 

» Zettair 
我 们 进一步 使 用 更 大 的 WT1l0g 子 集 来 评价 它们 的 索引 能 力 。 

我 们 还 需要 提 到 的 是 ， 使 用 TREC-4 子 集 的 索引 测试 排除 了 下 列 引擎 ,Datapark、 
Glimpse, mnoGoSearch, Namazu 和 OpenFTS。 对 于 较 小 的 750MB 文档 集 ， 它们 的 索引 时 
EA 77 分 钟 到 大 于 320 分 钟 。 也 就 是 说 ， 相 比 于 其 他 引擎 ， 它 们 的 索引 性 能 更 差 。 一 个 重 
要 的 发 现 是 ， 所 有 用 数据 库 来 存放 索引 的 搜索 引擎 的 索引 时 间 比 其 他 的 要 长 。 

(2) 内 存 和 CPU 消耗 

我 们 使 用 A. 3 节 中 提 到 的 简单 监测 工具 ， 分 析 每 个 搜索 引擎 在 索引 阶段 的 性 能 ， 考 虑 
内 存 和 CPU 消耗 。 表 A-3 中 给 出 了 结果 。 对 于 CPU 消耗 ， 得 到 了 如 下 结论 。 


表 A-3 Test A- 索 引 。 最 大 CPU 和 内 存 (RAM) WHE, RAM 模式 
(内 存 消耗 模式 )}， 以 及 三 个 TREC-4 于 集 的 索引 大 小 






2. 7MB 


最 大 RAM | 内 存 
消耗 















































































HtDig 100.0% 100.0% 6.4% 

Indri 100.0% 97. 5% 88.6% 9.7% L-S 
Lucene 99. 4% 20.0% 100.0% 99.2% 59.4% L 
MG4] 100.0% 23.4% 100. 0% 48.0% 100. 0% 70.4% C 
Omega 100.0% 26.8% 99.2% 52.1% 94.0% 83.5% L-C 
OmniFind 78.4% 17.6% 83.3% 18.3% 83.8% 19.5% S 
Swish-E 100.0% 16.2% 98.9% 31.9% 98.8% 56.7% L 
Swish++- 99.6% 24.8% 98.5% 34.3% 98.6% 54.3% S 
Terrier 99.5% 58.1% 99.4% 78.1% 98.7% 86.5% SC 


77.2% 20.2% 98.1% 22.3% 82.7% 23.1% 
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内 存 消 耗 模式 : CRE, LAB, SHH. 


CPU 消耗 在 整个 索引 阶段 保持 一 致 ， 所 有 搜索 引擎 的 CPU 消耗 接近 100%, 
采用 测试 期 间 服务 器 总 物理 内 存 的 百分比 对 内 存 消耗 进行 评价 。 与 CPU 消耗 的 情况 不 
我 们 观察 到 6 种 不 同 模式 的 内 存 消耗 : 
。 RÈ (C): 内 存 消耗 保持 不 变 。 
。 线性 〈L) :内 存 消耗 随 着 索引 大 小 线性 增长 。 
。 i (O): 内 存 消耗 最 初 增长 ， 然 后 保持 一 段 时 间 不 变 ， 之 后 按照 这 个 模式 继续 增长 。 
。 线性 - 步 进 (LS), 线性 增长 和 步 进 增长 相 结合 。 
。 线性 -不 变 (L-O): 线性 增长 和 不 变相 结合 。 
。 步 进 -不 变 (SOC): 步 进 增长 和 不 变相 结合 。 


同 


对 于 内 存 消 耗 ， 我 们 的 结论 是 : 
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。 HtDig 和 MG4J 在 整个 过 程 中 稳定 地 使 用 内 存 〈C 模式 )。 
。 Lucene, Omega, Swish-E 和 Zettair 的 内 存 消 耗 是 线性 增长 〈L 模式 )。 


。 Swish 十 十 和 OmniFind 呈现 了 步 进 方式 〈S 模式 ) 。 
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。 Indri 早期 内 存 消耗 是 线性 增长 ， 之 后 突然 降低 了 内 存 消 耗 量 ， 之 后 重新 开始 以 线性 


方式 消耗 内 存 (L-S fish). 
Terrier 呈现 的 模式 是 起 初步 进 方式 增长 ， 之 后 突然 下 降 ， 接 下 来 保持 内 存 消 耗 不 变 
一 直到 索引 结束 (S-C 模式 ) 。 


。 Omega 在 索引 2. 7GB 子 集 的 开始 时 是 线性 增长 模式 ， 之 后 在 达到 一 定数 量 后 ， 使 用 
量 保持 不 变 〈L-C 模式 )。 
(3) 索引 大 小 


R A-4 给 出 了 10 个 搜索 引擎 的 索引 大 小 。 对 于 索引 大 小 ， 我 们 得 到 如 下 结论 : 


。 Lucene, MG4J, Swish-E, Swish ++ Ñ Zettair 生成 的 索引 大 小 是 文档 集 大 小 的 

25%~35%. 
。 Indri 和 Terrier 生成 的 索引 是 文档 集 大 小 的 50%~55%, 
。 HtDig、Omega 和 OmniFind 生成 的 索引 是 文档 集 大 小 的 100% 以 上 。 


搜索 引擎 


索引 大 小 








750MB 1. 6GB 2.7GB 
HtDig 108% 92% 104% 
Indri 61% 58% 63% 
Lucene 28% 23% 26% 
MG4J 30% 30% 
Omega 104% 103% 





2. 索引 四 个 WT10g FR 
我 们 使 用 在 TREC-4 子 集中 有 合理 索引 时 间 的 8 个 引擎 ， 试 图 索引 整个 WT10g 文档 集 
(10. 2GB) 。 这 个 集合 包含 一 组 文件 ， 每 个 文件 中 由 一 组 包含 实际 HTML 页 面 的 记录 组 成 。 


对 于 整个 WT10g 文档 集 的 索引 ， 我 们 得 到 如 下 的 观察 结果 : 





OmniFind 
Swish-E 
Swish 十 十 
Terrier 


Zettair 


表 A-4 Test A- 索 引 。 对 于 三 个 TREC-4 子 集 所 生成 的 索引 的 相对 大 小 








索引 大 小 
750MB 1. 6GB 2.7GB 
175% 159% 171% 
31% 28% 31% 
30% 26% 29% 
51% 47% 52% 
34% 33% 





31% 





。 HÆ Indri, MG4J, Terrier 和 Zettair 有 能 力 直 接 索 引 WTlog 文件 ， 不 需要 进行 干 
预 。 此 外 ， 它 们 也 是 仅 有 的 可 以 在 线性 时 间 内 完成 任务 的 引擎 。 其 他 的 搜索 引擎 不 
fy RATE, RAAT APRS TR. 

。 HtDig 和 Lucene 需要 首先 对 文档 中 的 文件 进行 分 析 ， 将 HTML 文档 抽取 出 来 。 此 
外 ， 它 们 使 用 的 时 间 比 预想 的 多 7 倍 ， 比 最 快 的 引擎 (Zettair) 慢 了 近 20 FF. 

。 Swish-E 和 Swish 十 十 也 需要 将 文档 集中 的 文件 进行 预 处 理 ， 由 于 “缺乏 内 存 ” 的 错 


TRAE TS Ee FF A it. 


基于 这 些 结 果 ， 我 们 分 析 了 在 四 个 WTlog 子 集 上 ，JIndri、MG4J、Terrier 和 Zettair 所 
用 的 索引 时 间 。 图 A-2 给 出 了 结果 。 我 们 看 到 四 个 引 警 的 索引 时 间 随 着 文档 集 大 小 的 增长 
而 线性 增长 ， 这 很 好 。 
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索引 时 间 :WT10g 文 档 集 





1000 


时 间 分 ) 








Indri MG4J 





Zettair 


图 A-2 Test A- 索 引 。Indri、MG4J、Terrier 和 Zettair 索引 4 个 WT10g 子 集 所 用 的 时 间 


A. 4.2 Test B- 增 量 索 引 


我 们 还 在 各 种 大 小 的 情况 下 比较 了 增 量 索引 所 用 的 时 间 : 初始 文档 集 大 小 的 1%、5% 
和 10% 。 增 量 索 引 在 1.6GB 文档 集中 产生 。 对 于 这 些 测试 ， 我 们 比较 了 HtDig, Indri, 
Swish-E 和 Swish 十 十 。 图 A-3 给 出 了 增 量 索引 时 间 的 比较 图 。 我 们 注意 到 所 有 四 个 引擎 都 
可 以 高 效 地 处 理 增 量 索引 。 


增 量 索引 时 间 








时 间 〈 秒 ) 








HtDig Indri Swish-E Swish++ 
搜索 引擎 
图 A-3 Test B- 增 量 索 引 。4 个 搜索 引擎 用 来 处 理 增 量 索引 的 时 间 
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A.4.3 Test C- 搜 索性 能 


搜索 性 能 和 搜索 引擎 处 理 查询 的 速度 以 及 它 需 要 的 资源 相关 。 为 了 测试 这 一 点 ， 我 们 使 
用 了 两 组 根据 文档 中 所 包含 的 单词 随机 生成 的 查询 。 第 一 组 包含 100 个 单个 词 查询 。 第 二 组 
包含 了 100 个 两 个 词 查询 。 实 验 在 三 个 TREC-4 子 集 上 进行 ， 使 用 具有 合理 索引 时 间 的 8 个 
搜索 引擎 ， HtDig、Indri、Lucene、MG4J]、Swish-E、Swish 十 十 、Terrier 和 Zettair。 我 们 
记录 了 每 个 引擎 的 平均 查询 处 理 时 间 和 检索 比率 ， 定 义 为 : 


_ “引擎 检索 的 文档 个 数 
检索 比率 一 所 有 引 举 检 索 的 文 稳 总 攻 


为 了 生成 查询 ， 我 们 从 每 个 文档 集 的 词汇 表 中 随机 选择 了 1 个 或 者 2 个 单词 〈 不 包含 禁 
用 词 ) ， 使 用 多 种 单词 分 布 : 

。 原始 的 单词 分 布 ER). 

。 5%% 高 频 词 上 的 均匀 分 布 。 

。 30% 低 频 词 上 的 均匀 分 布 。 

1. 查询 处 理 时 间 和 检索 比率 

在 提交 了 这 些 单个 词 和 两 个 词 的 查询 组 (每 组 包含 100 个 查询 ) 后 ， 对 每 个 文档 集 ， 我 
们 计算 平均 查询 处 理 时 间 和 相应 的 检索 比率 。 对 于 两 个 词 的 查询 ， 我 们 考虑 匹配 任何 一 个 单 
词 (使 用 OR 操作 符 )。 图 A-4 中 给 出 了 这 8 个 引擎 在 2.7GB 文档 集 上 的 平均 响应 时 间 图 。 
平均 说 来 ， 查 询 处 理 时 间 对 于 单个 词 和 两 个 词 的 查询 差别 在 1.5 一 2 倍 ， 是 线性 关系 。 最 快 
的 搜索 引擎 是 Indri 和 Lucene， 其 次 是 MG4J 和 Zettair。 所 有 系统 的 检索 比率 都 比较 接近 ， 
但 是 ， 当 文档 集 变 大 时 ， 检 索 比 率 迅速 下 降 。 


平均 搜索 时 间 (2.7GB 文 档 集 ) 
70 r T i ! i 


















=a 
RR ge en mira reer te reenter ne ve reer Onno’ 二 词 查询 








时 间 (毫秒 ) 




















HtDig Indri Lucene MG4J Swish-E Swish++ Terrier Zettair 
搜索 引擎 
图 A-4 Test C- 搜 索性 能 。8 个 搜索 引擎 的 平均 查询 处 理 时 间 (2. 7GB 文档 集 ) 


2. At (RAM) 消耗 
在 搜索 阶段 ， 我 们 观察 到 4 种 不 同 的 行为 模式 。Indri、Lucene、MG4J、Terrier 和 
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Zettair 使 用 不 变 的 内 存 (1%~2% 的 内 存 )， 与 检索 文档 集 的 大 小 无 关 。Swish 十 十 的 内 存 使 
用 是 线性 增长 ， 对 于 每 个 文档 集 分 别 到 2.5%. 3.5% 814.5%, Swish-E 和 HtDig 使 用 了 更 
多 的 ， 但 是 不 变 的 内 存 。Swish-E 使 用 了 10. 5% 的 内 存 ，HtDig 使 用 了 14. 4% 的 内 存 。 


A. 4.4 Test D- 搜 索 质量 


为 了 评价 不 同 引 人 警 给 出 的 结果 质量 ， 我 们 使 用 WT10g 文档 集 。 为 此 ， 我 们 使 用 了 50 
个 TREC-2001Web Track“ 主 题 相 关 性 任务 ”中 的 主题 〈 使 用 只 包含 标题 的 查询 ) ， 以 及 对 
应 的 相关 性 评价 。 我 们 没有 使 用 词 干 提取 ， 也 没有 去 除 禁 用 词 ， 并 且 假 设 查询 项 间 包 含 OR 
操作 。 结 果 的 处 理 使 用 trec_eval 软件 ， 它 提供 标准 NIST 评价 ， 并 且 可 以 免费 获得 。 

我 们 关注 在 11 点 标准 召回 率 上 插值 后 的 平均 精度 值 〈 参 见 4. 3. 1 节 )。 对 于 这 个 测试 ， 
我 们 选择 可 以 在 完整 的 WTl0g 文档 集 上 生成 索引 的 4 个 引擎 进行 ， 它们 是 ，Indri、MG4J、 
Terrier 和 Zettair。 图 A-5 给 出 了 结果 。 我 们 注意 到 ， 在 搜索 性 能 测试 上 很 高 效 的 Indri 和 
Zettair， 也 给 出 了 最 好 的 结果 。 
平均 精度 - 召 回 率 CWTI10g 文 档 集 ) 





0.7 T 








和 Terrier. -=---=-==- 





精度 














A-5 Test D- 检 索 质 量 。 在 WT10g 文档 集 上 的 平均 精度 -召回 率 
接 下 来 ， 我 们 比较 在 不 同 阔 值 水 平 上 的 精度 ， 看 看 在 不 同 的 阔 值 水 平 上 结果 的 质量 如 何 
变化 。 表 A-5 给 出 了 结果 。 我 们 注意 到 Zettair 在 排序 的 前 5、10、15、20 和 30 位 置 得 到 了 
最 好 的 平均 精度 。 


R A-5 Test D- 检 索 质 量 。 对 于 WT10g 文档 集 在 不 同 闪 值 水 平 上 的 平均 精度 
P@5 
























Indri 0. 285 1 0. 253 2 0. 2170 0. 201 1 0. 180 1 
MG4J 0. 248 0 0. 210 0 0. 180 0 0. 160 0 0. 1340 
Terrier 0. 280 0 0. 240 0 0. 2130 0. 210 0 0.1930 













0. 231 0 





0. 2507 





0. 324 0 0. 268 0 
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A.4.5 全 局 评价 
通过 我 们 的 实验 ， 对 选取 的 10 个 开源 搜索 引擎 的 性 能 进行 了 更 深入 的 评价 〈 相 比 初始 
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的 27 个 引擎 集合 )， 得 到 了 一 系列 的 对 比 结论 。 在 本 节 中 ， 我 们 对 这 些 结果 进行 总 结 。 关 于 
索引 ， 我 们 的 主要 结论 是 : 
。 HtDig, Indri, Lucene, MG4J, Swish-E, Swish+-+, Terrier 和 Zettair 比 其 他 引 
擎 索引 速度 快 。 
。 Lucene、MG4J] 、Swish-E、Swish 十 十 和 Zettair 产生 的 索引 占 文档 集 大 小 的 25%% 一 35%% 。 
。 Terrier 产生 的 索引 大 小 是 文档 集 的 50%~55%., 
。 HtDig、Omega 和 OminiFind 产生 的 索引 大 小 超过 文档 集 本 身 的 大 小 。 
关于 索引 阶段 的 内 存 消耗 和 行为 模式 ， 我 们 的 主要 结论 是 : 
。 HtDig 和 Lucene 的 内 存 使 用 不 变 CA 30 一 120MB) 。 
。 MG4]、Swish-E、Swish 十 十 和 Terrier 使 用 了 更 多 的 内 存 ， 且 内 存 使 用 呈现 线性 增 
长 ; 对 于 最 小 的 文档 集 达 到 320~600MB， 对 于 最 大 的 文档 集 接近 1GB。 
在 测试 的 第 二 部 分 ， 我 们 发 现 ， 对 于 给 定 的 文档 集 和 查询 类 型 (单一 词 或 者 两 个 词 )， 
搜索 引擎 有 相似 的 查询 处 理 时 间 ， 如 下 所 述 : 
。 对 于 单个 词 的 查询 ， 平均 处 理 时 间 为 10 一 90ms。 
。 对 于 两 个 词 的 查询 ， 平 均 处 理 时 间 为 10~110ms, 
。 Indri 和 Lucene 的 平均 查询 处 理 时间 最 小 。 
在 更 大 的 WT10g 文档 集 上 进行 测试 ， 我 们 可 以 得 到 结论 : 
。 只 有 Indri, MG4J, Terrier 和 Zettair 有 能 力 索 引 整 个 WTlog 文档 集 ， 且 相对 
TREC-4 文档 集 ， 索 引 性 能 没有 大 的 退化 。 
。 Zettair 有 最 快 的 索引 器 ， 它 的 精度 -召回 率 图 也 与 Indri、MG4J 和 Terrier 近似 。 


A.5 结论 


这 个 研究 展示 了 比较 不 同 开源 搜索 引擎 的 方法 。 最初， 考虑 了 27 个 开源 搜索 引擎 。 根 据 
需求 进行 初始 筛选 ， 将 这 个 列表 降低 到 10 个 搜索 引擎 。 在 小 文档 集 上 的 进一步 实验 ， 将 列表 
缩小 到 8 个 具有 合理 索引 时 间 的 引擎 ， HtDig、Indri、Lucene、MG4J]、Swish-E、Swish 十 十 、 
Terrier 和 Zettair 。 

K A-6 给 出 了 具有 合理 索引 时 间 的 引擎 的 比较 排序 ， 考 虑 如 下 四 个 属性 : 索引 时 间 、 
索引 大 小 、 查 询 处 理 〈( 检 索 ) 时 间 和 检索 (结果 ) 质量 。 对 于 前 三 个 属性 ， 使 用 2.7GB 
TREC-4 子 集 。 对 于 最 后 一 个 属性 ， 使 用 WT10g 文档 集 。 只 有 四 个 搜索 引擎 有 能 力 全 部 索 
引 它 ; Indri, MG4J, Terrier 和 Zettair。 我 们 的 主要 结论 如 下 。 


RAG 根据 索引 时 间 、 索 引 大 小 、 平 均 查询 处 理 时 间 【对 于 2.7GB 文档 集 ) MPSS (对 于 
WT10g 文档 集 ) 对 搜索 引擎 排序。 括号 中 的 数字 表示 引 药 在 每 个 属性 中 的 相对 位 置 





索引 时 间 《小 时 :分 : Bb) 索引 大 小 (%》 搜索 时 间 (EE 答案 质量 P@5 
















































HtDig : 28 : 30 (8) (4) 32 一 
Indri :15:45 (7) (1) 19 (2) 0. 285 1 
Lucene 2:01: 25 《1》 (2) 21 一 
MG4J ? 12: 00 (6) (3) 22 (4) 0. 248 0 
Swish-E : 19:45 (3) (6) 45 一 
Swish 十 十 :22:15 (2) (8) 51 一 
Terrier 0:40:12 (5) (7) 50 (3) 0. 280 0 
Zettair 0:04: 44 (4) (4) 32 
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Zettair 是 最 完备 的 引擎 之 一 ， 因 为 1) 可 以 快速 地 处 理 大 量 信息 ， 使 用 比 其 他 

引擎 明显 少 的 时 间 ; 2) 平均 精度 -召回 率 图 与 其 他 引擎 具有 非常 大 的 可 比 性 (对 于 

WTl0g 文档 集 ) 。 

尽管 如 此 ， 决 定 使 用 娜 个 搜索 引擎 必须 要 考虑 当前 应 用 的 需求 ， 而 不 只 是 量化 的 指标 。 其 
余 要 考虑 的 因素 包括 编程 语言 〈 例 如 ， 是 否 可 能 更 改 源码 ) 以 及 服务 器 属性 〈 例 如 ， 内 存 大 
小 ) 。 例 如 ， 如 果 要 索引 的 文档 集 很 大 ， 而 且 它 还 会 变化 〈 即 需要 频繁 地 索引 )， 也 许可 以 选择 
Zettair、MG4] 或 者 Swish 十 十 ， 因 为 它们 索引 建立 和 搜索 阶段 都 很 快 。Swish-E 也 是 一 个 好 的 
选择 。 男 一 方面 ， 如 果 限 制 条 件 是 硬盘 空间 ， 那 么 Lucene 是 一 个 好 的 选择 ， 因 为 它 只 需要 使 
用 很 少 的 空间 和 较 少 的 检索 时 间 。 它 的 缺点 是 对 文档 集 建立 索引 的 时 间 。 最 后 ， 如 果 文 档 集 不 
频繁 改变 ， 又 因为 所 有 搜索 引擎 具有 相似 的 检索 时 间 ， 那 么 可 以 根据 应 用 所 处 网 站 使 用 的 编程 
语言 决定 ， 以 便 最 大 限度 地 减少 定制 时 间 。 对 于 Java， 可 以 选择 MG4J Terrier 或 者 Lucene, 
对 于 C/C 十 十 ， 可 以 选择 Swish-E、Swish 十 十 、HtDig 或 Zettair。 
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Ricardo Baeza-Yates 于 1989 年 在 加 拿 大 滑铁卢 大 学 获得 计算 机 科学 博士 学 位 ， 就 读 期 
间 参 加 了 牛津 英语 词典 项 目 。 在 此 之 前 ， 他 于 1983 年 在 智利 大 学 获得 计算 机 科学 学 士 学 位 ， 
后 来 还 在 该 校 先后 获得 计算 机 科学 理学 硕士 学 位 〈1985 年 )、 电 气 工程 专业 技术 职称 (1985 
年 ) 和 电子 工程 工学 硕士 学 位 (1986 年 ) 20 世纪 90 年 代 ， 他 担任 过 两 届 智 利 计 算 机 科学 
学 会 (Chilean Computer Science Society, SCCC) 主席 。2000 年 ， 他 创立 了 智利 互联 网 搜 
索引 擎 TodoCL. com, SMR. MA 2000—2004 年 ， 他 是 拉美 计算 机 科学 系 联合 会 
(CLED 的 主席 ， 伊 比 利 亚 -美洲 科技 合作 项 目 〈《CYTED) 应 用 电子 和 信息 技术 领域 的 国际 
协调 员 。2002 一 2005 年 ， 他 创办 并 领导 了 智利 大 学 工学 院 计 算 机 科学 系 Web 研究 中 心 。 
2004 年 年 底 ， 他 成 为 西班牙 巴塞 罗 那 庞 培 法 布 拉 大 学 信息 和 通信 技术 系 ICREA 研究 教授 。 
自 2006 年 以 来 ， 他 一 直 担任 雅虎 欧洲 和 拉丁 美洲 研究 院 的 副 总 裁 ， 领 导 西 班 牙 巴 塞 罗 那 和 
智利 圣地 亚 哥 的 实验 室 ，2008 F, HERE AEI A EY) OT FEE SS 

他 的 研究 兴趣 包括 Web 检索 和 数据 挖掘、 索引 和 搜索 算法 。 他 一 直 是 IEEE 计算 机 分 
会 管理 委员 会 和 ACM 出 版 委员 会 委员 。 他 曾经 担任 多 个 主流 学 术 会 议 的 程序 委员 会 主席 或 
联合 主席 ， 包 括 ACM SIGIR 2002, ACM CIKM 2007, ACM KDD 2009 和 ACM/IEEE/ 
WIC WI/IAT 2009, {hth ACM SIGIR 2005 和 ACM WSDM 2009 的 大 会 主席 或 联合 主 
席 。 他 是 《ACM TOIS), (Information Systems) #1 «Information Processing & Manage- 
ment》 等 学 术 期 刊 的 副 主 编 。 他 一 共 发 表 了 250 多 篇 论著 ， 其 中 包括 多 本 合 著 的 书籍 ， 例 
如 1991 年 由 Addison-Wesley 出 版 的 《Handbook of Algorithms and Data Structures》 第 二 
版 ，1992 年 担任 由 Prentice-Hall 出 版 的 《Information Retrieval; Algorithms and Data 
Structures》 一 书 的 联合 编辑 。 他 曾 获 得 美洲 国家 组 织 向 从 事 精 密 科学 的 青年 研究 人 员 颁 发 
的 奖项 (1993 年 )， 并 于 1997 年 和 两 位 巴西 同事 因 巴 西 计 算 机 科学 最 佳 研究 论文 而 共同 获 
得 COMPAQ 奖 。2003 年 ， 他 成 为 第 一 位 当选 智利 科学 院 院士 的 计算 机 科学 家 。2007 年 ， 
作为 滑铁卢 大 学 的 杰出 校友 ， 他 被 授予 格雷 厄 姆 奖章 ， 以 奖励 他 在 计算 领域 的 创新 贡献 。 
2009 年 ， 他 被 CLE] 授予 拉美 地 区 计算 机 科学 杰出 贡献 奖 并 成 为 ACM 院士 。 他 是 ACM 院 
+, IEEE 高 级 会 员 ，AMS、EATCS、SCCC 和 SIAM 等 学 会 的 会 员 。 

Berthier Ribeiro-Neto 于 1995 年 在 加 州 大 学 洛杉矶 分 校 获得 计算 机 科学 博士 学 位 。 在 此 
之 前 ， 他 在 巴西 贝 洛 奥 里 藏 特 市 的 米 纳 斯 吉 拉 斯 联邦 大 学 (CUFMG) 先后 获得 数学 学 士 学 
位 、 电 气 工程 学 士 学 位 和 计算 机 科学 硕士 学 位 。1996 年 ， 他 到 UFMG 计算 机 科学 系 工作 ， 
目前 是 副教授 。 

2000 年 ，Ribeiro-Neto 在 贝 洛 奥 里 藏 特 共同 创办 了 Akwan 信息 技术 公司 ， 这 是 一 家 为 
巴西 互联 网 提供 搜索 引擎 服务 的 创业 公司 。2001 Æ, A UFMG 无 薪 休 假 ， 并 成 为 Akwan 
的 首席 执行 官 。 公 司 向 企业 市 场 销售 定制 的 搜索 解决 方案 ， 取 得 莲 勃 发 展 。2005 年 ， 
Akwan 被 谷歌 收购 ， 成 为 谷歌 的 拉美 工程 办 公 室 ， 他 目前 担任 工程 总 监 和 现场 主管 。 

Ribeiro-Neto 的 主要 兴趣 是 信息 检索 系统 ，Web 搜索 和 社交 网 络 。 他 曾 参 与 科技 部 
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(MCT) 和 国家 科学 技术 发 展 委 员 会 (CNPq) 等 巴西 国家 研究 机 构 资 助 的 许多 研究 项 目 。 
他 是 1998 年 字符 串 处 理 和 信息 检索 研讨 会 (String Processing and Information Retrieval 
Symposium, SPIRE) 和 1999 年 巴西 数据 库 讨 论 会 (Brazilian Symposium on Databases, 
SBBD) 的 程序 委员 会 主席 ， 以 及 2009 年 ACM Web 搜索 和 数据 挖 斤 会 议 CACM Confer- 
ence onWeb Search and Data Mining，ACM WSDM) 的 程序 委员 会 联合 主席 。 他 已 经 在 各 
种 会 议和 期 刊 上 发 表 了 70 多 篇 论文 ， 是 ACM 信息 系统 汇 刊 CACM Transactions on Infor- 
mation Systems, ACM TOIS) 的 副 主 编 和 ACM 会 员 。 


扎 稿 人 简介 


Eric Brown 在 美国 佛蒙特 大 学 获得 计算 机 科学 学 士 学 位 ， 在 马 塞 诸 萨 大 学 获得 计算 机 科 
学 硕士 和 博士 学 位 。Eric 在 马 塞 诸 萨 大 学 师 从 Bruce Croft， 是 智能 信息 检索 中 心 的 成 员 。 
1995 Æ, Eric 作为 研究 人 员 加 入 IBM 的 T. J. Watson 研究 实验 室 。Eric 在 IBM 从 事 信息 检 
索 、 文 档 分 类 、 文 本 分 析 、 问 题 回答 、 生 物 信息 学 和 自动 语音 识别 应 用 的 研究 。 自 2007 年 
起 ，Eric 参 与 了 IBM 的 DeepQA 项 目 ， 运 用 开放 域 自动 问题 回答 技术 ， 开 发 Watson 问答 
A. Watson 的 目标 是 实现 人 类 水 平 的 问题 回答 性 能 。Eric 在 许多 会 议和 期 刊 发 表 了 论文 ， 
并 持 有 文本 分 析 和 问题 回答 领域 的 多 项 专利 。 

Carlos Castillo 是 在 雅虎 巴塞 罗 那 研究 院 的 研究 科学 家 。 在 此 之 前 ， 他 是 罗马 智慧 大 学 
和 巴塞 罗 那 庞 培 法 布 拉 大 学 的 博士 后 研究 人 员 。2004 年 ， 他 从 智利 大 学 获得 博士 学 位 ， 主 
要 研究 方向 是 网 络 息 取 、Web 刻画 和 Web HEF. Castillo 博士 目前 活跃 在 Web 用 途 和 链接 
挖掘 领域 。 他 已 在 权威 刊物 和 国际 会 议 发 表 了 数 篇 论文 ， 组 织 了 数 次 敌对 Web 信息 检索 的 
研讨 会 和 竞赛 ， 并 在 信息 检索 领域 的 主流 会 议 (WWW, WSDM, SIGIR 和 CIKM 等 ) 担 
任 程序 委员 会 委员 。 

Marcos André Goncalves 是 米 纳 斯 吉 拉 斯 联邦 大 学 (UFMG) 计算 机 科学 系 助 理 教授 。 
他 于 2004 年 在 弗吉尼亚 理工 大 学 获得 计算 机 科学 博士 学 位 ，1997 年 在 巴西 坎 皮 纳 斯 州立 大 
学 (UNICAMP) 获得 计算 机 科学 硕士 学 位 ，1995 年 在 巴西 塞 阿拉 联邦 大 学 (UFC) 获得 
计算 机 科学 学 士 学 位 。 他 曾 在 多 本 期 刊 (《TOIS》、《TIDE》、《IP&M》、《Information 
Retrieval》 和 《Information Systems》 等 ) 和 会 议 (SIGIR、CIKM 和 JCDL 等 ) 担任 审 稿 
人 。 他 的 研究 兴趣 包括 信息 检索 、 数 字 图 书馆 、 通 用 文本 分 类 和 文本 挖掘 ， 并 在 这 些 领域 发 
表 了 多 篇 论文 。Marcos 是 巴西 科学 院 的 附属 会 员 。 

David Hawking 是 澳大利亚 堪培拉 Funnelback 公司 的 首席 科学 家 。Hawking 博士 及 其 
团队 先后 在 澳大利亚 国立 大 学 (ANU) 和 澳大利亚 联邦 科学 与 工业 研究 组 织 〈CSIRO) 从 
事 研究 工作 ， 后 来 独立 为 Funnelback 公司 ， 从 事 企 业 和 Web 搜索 的 商业 化 研究 。David 是 
澳大利亚 国立 大 学 的 兼职 教授 和 博导 。1997 一 2004 年 ， 他 和 Nick Craswell 一 起 担任 TREC 
Web 搜索 任务 的 协调 员 ， 全 球 120 多 个 研究 机 构 使 用 了 他 创建 并 分 发 的 信息 检索 基准 集 。 
他 是 2003 年 和 2006 年 ACM SIGIR 会 议 的 程序 委员 会 主席 。 他 在 澳大利亚 国立 大 学 获得 博 
士 学 位 ， 并 被 纳 沙 泰 尔 大 学 授予 荣誉 博士 学 位 。2004 年 ， 他 获得 省 大 拉 西 亚 计算 机 科学 研 
究 奖 。 他 的 研究 兴趣 包括 分 布 式 信息 检索 、 基 于 距离 的 排序 、 个 人 元 搜索 、 文 档 注释 、 高 效 
检索 算法 、Web 搜索 、 健 康信 息 的 自动 质量 评级 、 信 息 检 索 评价 和 企业 搜索 。 

Marti Hearst 是 加 州 大 学 伯克利 分 校 信息 学 院 教授 ， 并 在 计算 机 科学 部 兼职 。 她 的 主要 
研究 兴趣 为 搜索 引擎 用 户 界面 、 信 息 可 视 化 、 自 然 语言 处 理 和 社会 媒体 的 经 验 分 析 。 她 刚刚 
完成 了 关于 搜索 用 户 界面 的 第 一 本 书籍 。 她 先后 在 加 州 大 学 伯克利 分 校 获得 计算 机 科学 学 
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士 、 硕 士 和 博士 学 位 ， 并 于 1994 一 1997 年 在 施乐 公司 帕 洛 阿尔 托 研究 中 心 (Xerox PARC) 
担任 研究 人 员 。Hearst 教授 曾 在 NSF 的 CISE 咨询 委员 会 任职 ， 也 是 CACM 的 互联 网 委员 
会 联合 主席 。 她 是 《American Heritage Dictionary》 用 法 小 组 成 员 和 Edge. org 专家 小 组 成 
员 。 她 曾 任 《Computational Linguistics), «ACM Transactions on Information Systems) 和 
«IEEE Intelligent Systems) #94492, HAE «ACM Transactions on the Web) #1 «ACM 
Transactions on Computer-Human Interaction) 的 编 委 。 

Mounia Lalmas 在 英国 格拉 斯 哥 大 学 计算 机 科学 系 担任 微软 研究 院 / 皇 家 工程 院 首席 研 
究 员 。 在 此 之 前 ，1999 年 ， 作 为 讲师 加 入 伦敦 大 学 玛丽 女王 学 院 计 算 机 科学 系 ， 之 后 晋升 
为 信息 检索 教授 。1998 年 ， 她 在 多 特 蒙 德 大 学 担任 研究 科学 家 。1995 一 1997 年 ， 她 在 格拉 
斯 哥 大 学 担任 讲师 ，1997 一 1998 年 转 为 研究 员 ，1996 年 获得 博士 学 位 。 她 获得 了 特许 信息 
技术 专业 资格 (Chartered IT Professional，CITP) ， 并 担任 英国 计算 机 学 会 (FBCS， 院士 。 
她 曾 任 ACM SIGIR 的 信息 主管 ， 现 已 当选 为 副 主席 。 她 是 《ACM TOIS), {IR} (Spring- 
er) 和 《IP&M》(Elsevier) 的 编 委 。 她 的 研究 主要 集中 在 交互 式 复杂 蜡 质 信 息 库 的 智能 接 
口 开发 和 评价 ， 并 广泛 涵盖 HTML, XML 和 MPEG-7 等 领域 。2002 一 2007 年 ， 她 与 Nor- 
bert Fuhr 共同 领导 了 INEX XML 检索 评价 (Evaluation Initiative for XML Retrieval), ix 
是 一 个 由 来 自 世 界 各 地 80 多 个 机 构 参 与 的 大 型 项 目 ， 负 责 定 义 XML 检索 的 性 质 和 评价 方 
法 。 她 多 次 在 CIKM、SIGIR 和 ESSIR 等 国际 会 议 上 做 有 关 XML 检索 和 评价 的 报告 和 讲 
座 。 她 现在 主要 从 事 聚 合 搜 索 和 弥合 数字 鸿沟 的 研究 ， 同 时 也 回归 到 理论 信息 检索 方向 ， 使 
用 量子 理论 对 交互 式 信息 检索 建 模 。2004 年 和 2006 年 她 在 SIGIR 担任 研讨 会 主席 ，2009 
年 担任 辅导 主席 。 她 还 先后 担任 CIKM 2008 和 WI/IAT 2009 的 公共 关系 (共同 ) 主席 ， 
CIKM 2010 的 研讨 会 主席 ，2006 年 欧洲 信息 检索 研究 会 议 (European Conference on Infor- 
mation Retrieval Research，ECIR) 的 程序 委员 会 主席 ，2009 年 WWW 会 议 XML 和 Web 
数据 分 会 的 副 主席 ，2008 年 语 境 中 信息 交互 会 议 (Information Interaction in Context, Il- 
iX) 和 2010 年 欧洲 数字 图 书馆 会 议 (European Conference on Digital Libraries, ECDL) 的 
大 会 共同 主席 。 

Yoelle Maarek 于 2009 年 6 月 加 入 雅虎 以 色 列 实验 室 ， 并 担任 高 级 研究 总 监 。 在 此 之 
前 ， 她 于 2006 年 3 月 创办 了 谷歌 海 法 工程 研究 中 心 ， 并 担任 工程 总 监 ， 该 中 心 有 近 40 位 研 
究 人 员 和 软件 工程 师 。 她 在 谷歌 海 法 的 团队 推出 了 “谷歌 建议 ”， 这 是 近年 来 Web 搜索 最 鲜 
明 的 特色 之 一 ， 具 有 查询 填充 功能 ， 适 用 于 大 多 数 语 言 ， 自 2008 年 8 月 以 来 已 部 署 在 
google. com， 并 应 用 于 YouTube, iGoogle 和 移动 搜索 等 一 系列 Google 服务 。 海 法 团队 也 
在 其 他 领域 开发 特色 服务 ， 如 搜索 广告 和 YouTube 上 的 互动 注释 。 在 此 之 前 ， 自 1989 年 以 
来 她 在 IBM 研究 中 心 工 作 ， 先 后 担任 了 一 系列 技术 和 管理 职务 。 她 首先 在 美国 纽约 的 
T. J. Watson 研究 中 心 ， 然 后 在 IBM 以 色 列 海 法 的 研究 实验 室 工作 到 2006 年 2 月 ， 在 此 期 
间 她 促成 了 IBM 企业 搜索 服务 。 她 在 IBM 的 最 后 两 个 职位 是 搜索 和 协作 领域 的 杰出 工程 师 
和 部 门 经 理 。 她 在 1985 年 毕业 于 法 国 巴 黎 的 国立 路 桥 学 校 ， 并 从 巴黎 第 六 大 学 获得 了 计算 
机 科学 研究 生 学 位 (DEA). 1986—1987 年 她 在 纽约 哥伦比亚 大 学 做 访问 博士 生 。1989 年 
她 在 海 法 的 以 色 列 理工 大 学 获得 了 计算 机 科学 博士 学 位 。Yoelle 的 研究 兴趣 包括 信息 检索 、 
Web 应 用 和 协作 技术 。 在 这 些 领域 中 ， 她 已 发 表 了 50 多 篇 论文 和 文章 。 她 活跃 在 科研 界 ， 
过 去 10 年 中 ， 她 在 WWW 系列 会 议 的 多 个 技术 分 会 担任 主席 或 副 主 席 ， 在 大 多 数 ACM SI- 
GIR 会 议 担 任 高 级 或 普通 程序 委员 会 委员 。 她 还 在 WWW 和 SIGIR 会 议 主持 了 多 个 研讨 会 
和 小 组 讨论 。 最 近 ， 她 和 Andrei Broder 共同 主持 2008 年 WWW 会 议 的 讨论 活动 ， 和 Wolf- 
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gang Nejdl 一 起 担任 2009 年 4 月 在 马德里 举行 的 WWW 会 议 的 技术 程序 联合 主席 。 自 2009 
年 以 来 ，Yoelle 也 是 海 法 大 学 Caesarea-Rotschild 研究 所 董事 局 成 员 和 以 色 列 理工 大 学 理事 
会 成 员 。 

Christian Middleton 目前 是 一 名 软件 工程 师 。 此 前 ， 他 是 庞 培 法 布 拉 大 学 计算 机 科学 与 
数字 通信 专业 的 博士 研究 生 ， 师 从 Ricardo Baeza-Yates, 2004 年 ， 他 在 智利 大 学 获得 了 硕 
士 学 位 和 计算 机 科学 工程 师 职 称 。 他 的 主要 兴趣 领域 是 Web 控 据 和 上 日志 分 析 。 在 过 去 几 年 
里 ， 他 先后 参加 了 Web 图 可 视 化 、 用 户 日 志 分 析 和 搜索 引擎 评价 等 项 目 。 

Gonzalo Navarro 于 1998 年 在 智利 大 学 获得 计算 机 科学 博士 学 位 ， 目 前 是 该 校 计算 机 科 
学 系 教授 。 他 也 是 Millennium 细胞 动力 学 和 生物 技术 研究 所 研究 员 。 他 感 兴趣 的 领域 包括 
算法 和 数据 结构 、 文 本 搜索 、 压 缩 和 度量 空间 搜索 。 他 负责 过 一 些 文本 搜索 和 信息 检索 的 研 
究 项 目 ， 受 到 伊比 利 亚 美 洲 信息 检索 研究 组 (RIBIDI〉 的 互联 网 研究 中 心 和 雅虎 研究 院 资 
Bh. Navarro 教授 担任 过 多 个 会 议 的 程序 委员 会 (联合 ) 主席 ， 包 括 2001 年 和 2005 年 的 字 
符 串 处 理 和 信息 检索 会 议 ‘SPIRE)， 并 担任 ACM SIGIR 2005 的 海报 主席 。2008 年 他 参与 
创建 了 相似 性 搜索 及 应 用 会 议 (Similarity Search and Applications，SISAP) 。 他 是 拉丁 美 
洲 理论 信息 学 会 议 (LATIN) 和 SISAP 的 指导 委员 会 委员 ，《Information Retrieval jour- 
nal》 和 《ACM Journal of Experimental Algorithmics》 编 委 。 他 是 剑桥 大 学 出 版 社 出 版 的 
«String Matching》 一 书 的 作者 之 一 ， 著 有 15 章 ， 编辑 了 6 本 国际 学 术 会 议论 文集 ， 在 国际 
期 刊 发 表 了 约 80 篇 论文 ， 在 国际 会 议 发 表 了 约 140 f. 

Dulce Poncele6n 拥有 斯 坦 福 大 学 计算 机 科学 硕士 和 博士 学 位 。 她 曾 在 苹果 电脑 公司 先进 
技术 组 工作 ， 为 QuickTime 研究 信息 检索 和 音 视 频 压 缩 技术 。 她 为 第 一 个 纯 软 件 视频 会 议 
系统 做 出 了 关键 贡献 。 她 目前 在 IBM Almaden 研究 中 心 工作 ， 管 理 着 内 容 保护 技能 中 心 。 
她 的 工作 包括 多 媒体 内 容 分 析 和 索引 、 视 频 文摘 、 语 音 识 别 应 用 、 存 储 系统 和 内 容 保护 。 她 
对 ISO MPEG-7 的 标准 化 工作 做 出 了 贡献 ， 特 别 是 多 媒体 的 描述 方案 。 她 是 IBM 在 4C 及 
高 级 访问 内 容 系统 (AACS) 的 技术 代表 。4C 已 发 展 为 可 录制 和 预 录制 介质 (CPRM/CP- 
PM) 的 内 容 保护 标准 。Ponceleen 博士 自 2004 年 以 来 担任 4C 技术 组 主席 。AACS 是 管理 
存储 在 下 一 代 预 录制 或 可 录制 光学 介质 ， 为 个 人 电脑 和 消费 电子 设备 用 户 提 供 服务 的 内 容 保 
护 标准 。Ponceleen 博士 是 一 所 主要 的 NSF 多 媒体 学 校 的 科学 咨询 委员 会 委员 ， 并 担任 
ACM Multimedia, SPIE, SIGIR, IEEE 和 一 些 多 媒体 研讨 会 的 程序 委员 会 委员 。 她 曾 主持 
T ACM MM 2000 的 多 媒体 标准 研讨 会 和 ACM MM 2001 的 流 式 视频 小 组 讨论 ， 在 SIGIR 
2002、SIGIR 2005 和 ICASPP 2006 做 多 媒体 信息 检索 讲座 。 她 在 音 视频 压缩 、 多 媒体 信息 
检索 、 内 容 保护 、 人 机 接口 、 数 值 线性 代数 和 非 线性 规划 方面 拥有 专利 ， 发 表 了 许多 论著 。 

Edie Rasmussen 目前 在 加 拿 大 温哥华 担任 不 列 颠 哥伦比亚 大 学 (UBC) 图 书馆 、 档 案 和 
信息 研究 学 院 教授 ， 并 已 担任 院 长 六 年 。 在 加 入 UBC 之 前 ， 她 是 美国 匹兹堡 大 学 信息 科学 
学 院 教授 。 她 曾 在 加 拿 大 新 斯 科 舍 省 达尔 豪 西 大 学 图 书馆 和 信息 研究 学 院 和 马来西亚 吉隆 坡 
Institiut Teknoloji MARA 大 学 图 书馆 学 院 任 职 ， 并 曾 在 新 加 坡 南洋 理工 大 学 、 新 西 兰 惠 灵 
顿 维多利亚 大 学 、 挪 威 奥 斯 陆 大 学 访问 。Rasmussen 博士 一 直 活 路 在 信息 检索 和 数字 图 书馆 
的 研究 界 ， 曾 任 ACM SIGIR, ACM DL, ACM/IEE JCDL 和 ASIS&T 会 议 的 主席 。 她 曾 
担任 美国 信息 科学 与 技术 学 会 主席 、 加 拿 大 信息 研究 委员 会 主席 ， 以 及 图 书馆 和 信息 科学 教 
育 协会 院 长 理事 会 联合 召集 人 。 她 目前 的 研究 兴趣 包括 文本 、 多 媒体 数据 库 和 数字 图 书馆 的 
信息 索引 和 检索 。 

Malcolm Slaney 是 雅虎 研究 院 的 首席 科学 家 ， 研 究 多 媒体 数据 的 各 种 处 理 方法 。 他 在 普 
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渡 大 学 获得 计算 显 像 博士 学 位 。 他 和 A. C. Kak 共同 撰写 了 《Principles of Computerized To- 
mographic Imaging》， 并 由 IEEE 出 版 。 最 近 这 本 书 由 SIAM 再 版 ， 列 人 “应 用 数学 经 典 ” 
系列 。 他 和 Steven Greenberg 共同 编辑 了 (Computational Models of Auditory Function), 
Slaney 博士 在 加 入 雅虎 之 前 ， 曾 在 贝尔 实验 室 、 斯 伦 贝 谢 公 司 位 于 帕 洛 阿尔 托 的 研究 中 心 、 
REJN, Interval Research 实验 室 和 IBM Almaden 研究 中 心 工 作 。 他 也 是 在 斯 坦 福 大 学 
音乐 与 声学 计算 研究 中 心 (CCRMA) 的 (咨询 ) 教授 ， 组 织 和 指导 听证 研讨 会 。 他 的 研究 
兴趣 包括 听觉 建 模 和 感知 、 多 媒体 分 析 和 综合 、 压 缩 域 处 理 、 音 乐 相似 性 和 音频 搜索 ， 以 及 
机 器 学 习 。 在 过 去 的 几 年 中 ， 他 领导 Telluride 神经 形态 研讨 会 的 听觉 组 。 

Nivio Ziviani 于 1982 年 从 加 拿 大 滑铁卢 大 学 获得 计算 机 科学 博士 学 位 。 他 是 巴西 米 纳 
斯 吉 拉 斯 联邦 大 学 计算 机 科学 系 的 名 誉 教授 ， 主 持 了 信息 处 理 实验 室 。 他 是 巴西 科学 院 成 
员 ， 曾 荣获 巴西 国家 科学 功绩 勋章 。 他 是 两 个 高 科技 创业 公司 的 创始 人 之 一 ， 其 中 矿业 科技 
集团 公司 在 1999 年 出 售 给 了 圣保罗 报 业 集团 ，Agwan 信息 技术 公司 在 2005 年 出 售 给 了 谷 
歌 公 司 。 他 发 表 了 许多 关于 算法 设计 和 信息 检索 的 论著 ， 后 者 是 他 的 主要 研究 领域 。2005 
年 他 担任 第 28 届 ACM SIGIR 会 议 (SIGIR〉 大 会 联合 主席 ， 并 于 1993 年 和 Ricardo Baeza- 
Yates 共同 创立 了 国际 字符 串 处 理 和 信息 检索 会 议 (International Conference on String Pro- 
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distortion-based views (变形 视图 )，42 
distributed cache table 〈 分 布 式 缓存 表 ) ，443 
distributed computing (分 布 式 计 算 ) 415, 424 
distributed hash table (分 布 式 散 列表 ) ，440 
distributed search 〈 分 布 式 搜 索 ) 400, 403, 424 
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cluster-based (SEF 346A), 400, 403, 422 
collecting data (数据 收集 )，426 
collection partitioning 《文档 集 划 分 )，405 
communication (通信 )，402，427 
dependability (可 靠 性 )，427 
external factors (外 部 因素 )，425 
indexing (索引 )，426，428 
communication (通信 )，430 
dependability (可 靠 性 )，429 
external factors 《外 部 因素 )，430 
query processing (查询 处 理 )，400，426，431 
communication (通信 )，436 
components 《组 件 ) ，431 
connectivity (可 连接 性 )，432 
dependability (A) SEE), 435 
external factors 〈 外 部 因素 ) 437 
interaction (384), 432 
load balancing (负载 均衡 )，433 
roles (和 角色)，432 
server software (服务 器 软件 )，402 
Web issues (Web 问题 )，437 
divergence from randomness (随机 差异 模型 )， 参 见 DFR 
document 〈 文 档 ) 203 
concepts (#4), 194 
format (#3), 204, 206 
length normalization (KÆ H— 4k), 75 
logical view GE SAA), 63 
metadata 〈 元 数据 ) 205 
non-relevant 〈 不 相关 )，65 
organization (#4441), 231 
preprocessing 〈 预 处 理 》，223 
presentation (7R), 204 
relevant (相关 ) ，65 
representation (表示 )，58，62 
semantics (语义 )，203，204 
semi-static collection 〈 半 静态 文档 集 )，338 
similarity (HWE), 223 
structure (结构 ) 64 
style (样式 )，204 
syntax (句法 )，203 
vocabulary (词汇 表 )，221 
word distribution (词汇 分 布 )，220 
document collection (文档 集 ) 
word distribution (词汇 分 布 )，221 
document partitioning (文档 划分 )，405 
doubling search (成 倍 扩 展 搜索 )，346 
DTD (文档 类 型 定义 )，209 
DTF (决策 理论 框架 ) 408 
Dublin Core (都 柏林 核心 )，?16 
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dynamic (动态 》 ETANA-DL (ETANA-DL 考古 数字 图 书馆 ) 732 
query suggestions (查询 建议 )，28，484 evaluation (评价 )， 参 见 retrieval evaluation 
dynamic programming 〈 动 态 规划 )，385 enterprise search 《企业 搜索 ) 662 
dynamic ranking 〈 动 态 排序 ) 674 open source software (开源 软件 )，742 
dynamic search (动态 搜索 )，503 R-precision (R Æ), 141 
dynamic summaries (动态 文摘 )，609 exact string matching (严格 串 匹配 )，372 
exhaustively (FJ RHE), 70 
E expected search length in evaluation 〈 期 望 搜索 长 度 ) 176 


experimentation in the lab (实验 室 中 的 实验 )，168 
explicit feedback 〈 显 式 反馈 )，177，178，180 


E-measure (E HE, E), 143 
e-publishing era 〈 了 电子 出 版 时 代 )，9 


edit distance (编辑 距离) 222, 261, 385 exploratory search (探索 式 搜索 )，22 

editorial judgements (编辑 判断 )，474 extended Boolean model (扩展 布尔 检索 模型 )，92 
effectiveness 《有效 性 )，337 eye tracking (RANGER), | 185 

efficiency (效率 )，337 

elementary concept (基本 概念 )，122 F 

Elias-8 code (Elias-8 编码 ) 355 F-measure (F 测度 ,下 值 ) 139, 144 

Elias-y code (Elias-y 编码 )，355 text classification (文本 分 类 )，327 

employee dissatisfaction in search 《员工 搜索 不 满意 度 ) 667 faceted (分 面 ) 

Endeca (Endeca 企业 搜索 引擎 ) ，495 categories (4%), 35 

ensemble classifiers 〈 集 成 分 类 器 ) 316 metadata (元 数据 )，36 


boosting-based (增强 型 )，318 
stacking-based (#702), 317 
enterprise search (AWIR R), 126, 641 
architecture (42449), 648 
context and personalization 《情境 化 和 个 性 化 ) 668 
contextualization 《情境 化 ) 675 
employee dissatisfaction (HIRME), 667 
evaluation 《评价 )，662 
TREC (文本 检索 会 议 )，663 
indexing (索引 )，652 
metasearch (元 搜索 )，659 
personalization (个 性 化 )，668 
biasing ( 偏 置 )，672 
dynamic ranking (动态 排序 〉)，674 
information filtering (信息 过 滤 )，679 
scoping (范围 )，672 
social recommender systems 《社会 化 推荐 系统 )，680 


false drop (CRK), 358, 407 
feature 《特征 ) 
selection 《选择 )，292，320 
vectors 《向 其 )，292 
federated search (KAHR), 399, 404, 438 
collection selection (文档 集 选 择 )，407 
local (局 部 )，403 
query processing (查询 人 处理 )，439 
federated system (联合 系统 )，432 
feedback (反馈 ) 
evaluation (评价 )，184 
explicit ( 显 式 )，177，178，180 
implicit (K), 177, 179, 195 
relevance (HX fE), #2 relevance feedback 
filtering (过 滤 ) ，164 
filtration (I), 388 


user modeling (FAP! ÆR), 677 fingerprinting (音频 指纹 识别 )，598 
user profiles (用 户 轮廓 )，677 finite automaton (有 限 自 动机 ) 
query processing 《查询 处 理 )，654 deterministic 〈 确 定性 )，377，388 
results presentation (结果 展示 )，655 non-deterministic 〈 非 确定 性 )，375，386 
security models 〈 安 全 模型 )，657 over codewords〈 码 字 上 的 ) 390 
software (软件 )，643 suffix based (Æ FAK), 380 
tasks (4E 9), 644 flat browsing (扁平 浏览 )，499 
textual annotations (文本 注释 )，653 flat categories 《扁平 分 类 ) ，35 
tuning (调试 )，665 flat indexing lists (扁平 索引 列表 )，549 
workplace (工作 场所 ) 644 focused crawling (REPO, 518 
entropy ($), 219, 234, 238, 239 folksonomy 分众 分 类 法 ) 232 
epistemological view 《认识 论 观点 )，117 frequentist view (WR EWA), 117 


error in text classification 〈 文 本 分 类 错误 》，326 freshness 《新 鲜 度 )，531 


full evaluation (完全 评价 )，348 
full inverted index (完全 侧 排 表 )，341 
fusion model (融合 模型 );，614 
naming faces (ARRA), 614 
fusion models 《融合 模型 》 
audio and video ( 音 视频 )，617 
AVSR ( 音 视频 语音 识别 })，617 
naming audio (音频 命名 )，616 
naming images 《图 像 命 名 )，615 
fuzzy 模糊) 
Boolean (布尔 )，259 
set model (模糊 集 模型 )，95 
set theory (模糊 集 理 论 )，95 
thesaurus (同义词 典 )，96 
fuzzy IR (模糊 信息 检索 )，96 
correlation matrix 《相关 性 矩阵)，96 
document sets 《文档 集 }，97 
ranking (排序 )，98 
fuzzy set 《模糊 集 ) 
algebraic product (代数 和 )，98 
algebraic sum (代数 和 }，96 
complement ( 补 集 )，95 
intersection 《交集 ) 95 
max (WK), 96 
min《 极 小 )，96 
union (并 集 )，95 


G 


Gaussian mixture models (高 斯 混合 模型 )，600 
generalized term vector (广义 索引 项 向 量 )，100 
generalized vector model (广义 向 量 模 型 ) 98 
GFS (谷歌 文件 系统 ) ， 参 见 Google File System 
global analysis 〈 全 局 分 析 )，179 ，194，195 
Gnutella (Gnutella 文件 共享 系统 )，440 
golden set (CHER), $I ground truth 
Golomb code (Golomb 码 )，356 
Google 〈 和 谷歌 ) 471, 480-484, 487, 490, 491, 494-496 

ads (7 4), 488 

blog (P), 490, 491 

cache (网 页 快照 ) 496 

did you mean (您 是 不 是 要 找 )，493 

l feel lucky (手气 不 错 )，482 

image search (图 像 搜 索 ) 480, 488 

notebook 〈 记 事 本 )，497 

numrange 〈 数 值 范围 ) 482 

similar (类 似 结 果 )，496 

suggest 《建议 ) 484-487 

translate (ABE), 496 

universal search 〈 统 一 搜索 )，491 
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Google File System (谷歌 文件 系统 )，478 
GOV collection (GOV 文档 集 )，162 

GPX (GPX 算法 )，559 

granularity (HAE), 425 

grep 〈 全 面 正 则 表达 式 搜索 软件 》，337，395 
grid computing 《网 格 计算 )，423 

grid-files 〈 网 格 文件 ) 392 

ground truth 〈 真 实情 况 ) 475 


H 


Hadoop, 424, 478 
HDFS (Hadoop 分 布 式 文件 系统 )，478 
Hamming ( 海 明 )，222 
handles 〈 句 柄 ) 714 
harmonic mean 〈 调 和 平均 》，144 
HDFS (Hadoop 分 布 式 文件 系统 ) 478 
Heaps’ Law (Heaps 法 则 )，221 
Heaps’ law (Heaps 法 则 )，237，343，344，455 
heavy tail ( 重 尾 ) 455 
hierarchical agglomerative clustering (EKARA), 289 
hierarchical index (层次 索引 )，550 
hierarchical organization (层次 组 织 )，35 
highlighting (加 亮 显示 )，31 
HITS ( 超 文本 推导 主题 搜索 算法 )，470 
Horspool’s algorithm (Horspool 算法 ) 373 
hop-plot Chop Æ), 457 
how people search 《人们 如 何 搜索 )，21 
HTML ( 超 文 本 标记 语言 )»，124，211 
HTTP 〈 超 文本 传输 协议 ) 124 
user-agent 〈 用 户 代 理 )，537 
hub (#2), 457 
hubs & authorities (枢纽 页 和 权威 页 )，125 
Huffman coding (RKB), 238, 239, 254 
byte ($47), 240 
canonical (规范 )，240，254 
human experimentation in the lab 〈 实 验 窗 中 的 人 工 实验 )，168 
hyperspace 〈 超 空间 ) ，125 
hypertext 〈 超 文本 )，124，501 
transfer protocol (传输 协议 ) ， 参 见 HTTP 
link (HE), 124 
markup language (标记 语言 )， 参 见 HTML 
navigation (MH), 124 
Web (万 维 网 )，125 
HyTime ( 超 媒 体 /基于 时 间 的 结构 语言 )，217 


IDF {反比 文档 频率 》)，70 
ILS (图 书馆 集成 系统 )，687 
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image (图 像 ) ranking (HE), 119 
format (A), 207 simplifying assumption 〈 简 化 假设 ) 118 
image retrieval (图 像 检 索 ) TF-IDF ranking (TF-IDF 排序 ) 121 
color-based 〈 基 于 颜色 的 ) 593 topology (拓扑 )，117 
content-based (基于 内 容 的 )，592 inference network model (推理 网 模型 )，117 
salient points (显著 点 》，596 information 《信息 ) 
texture-based (基于 纹理 的 ) 593 gain 《增益 )，323 
implicit feedback (KAAR), 177, 179 foraging theory (搜寻 理论 ) 24 
independence of index terms (索引 项 独立 性 )，98 lookup (查找 })，22 
index (索引 )，7，338 request 〈 需 求 ) 162, 163 
inverted ( 倒 排 )，340 scent (线索 )，24 
partial (部 分 )，353 information filtering (信息 过 滤 ) 679 
signature file 《签名 文件 )，357 information need 《信息 需求 )，3 
space (空间 )，338 information retrieval (JA BRR), AA IR 
storage (存储 )，338 information seeking (信息 搜寻 )》 
suffix array (后 缀 数组 )，360 classic model (经 典 模型 }，23 
suffix tree (后 缀 树 )，360 dynamic model (动态 模型 ) 23 
index partitioning (索引 划分 )，400 information theory (fA Bis), 218 
term-based (基于 项 的 )，412 informativeness 《信息 性 }，139 
index term (索引 项 )，57。 61-63, 227, 229 InkML 〈 墨 水 标记 语言 )，216 
Boolean model (布尔 模型 ) 64 Inguery (Inquery), 408 
correlation 〈 相 关 性 ) 68, 96 instantaneous code 《即时 码 ) 238 
probabilistic weight (AR AH), 80 integrated library system 〈 图 书馆 集成 系统 )， 参 见 library, ILS 
vector model ( 问 量 模型 )，77 interactive video summaries (交互 式 视频 摘要 )，611 
vector weight (向 量 权 重 )，77 interlaced search 《交错 搜索 )，381 
vector weighting (fq ERIO, 72 Internet Archive (Internet 档案 馆 ) 519, 543 
weights (Æ), 66 ， interpolated precision (插值 精度 )，137 
indexing (索引 ) intranet 《企业 网 )，447 
block addressing ( 块 寻 址 )，343 inverse document frequency 〈 反 比 文档 频率 ) ， 参 见 IDF 
document addressing (文档 寻 址 )，343 inverse term frequency 《反比 项 频 ) 195 
enterprise search (企业 搜索) 652 inverted file 〈 倒 排 文 件 》 ， 参 见 inverted index 
file-addressing 《文件 寻 址 )，343 inverted index 〈 倒 排 索 引 )》，7，340 
incremental ( 增 量 》，749 character position (字符 位 置 )，341 
index size 《索引 大 小 )、7?47 compressed 《压缩 )，354 
inverted index ( 倒 排 索引 )，351 construction (构建 )，351 
multidimensional (多 维 )，391 external 〈 外 部) 353 
signature file 《签名 文件 }，359 incremental ( 增 量 )，354 
space 《空间 )，338 intermittent (HJK). 354 
suffix array GG SA), 366 internal (ABB). 351 
suffix tree (St), 365 merging indexes (索引 合并 )，353 
time (时 间 )，338，745 rebuild (重建 )，354 
word-addressing ( 词 寻 址 )，343 full (ZE), 341 
WT10g collection (WT10g XHM), 748 in SIMD architecture ( 单 指令 流 多 数据 流 架 构 )，419 
INEX (INEX XML 检索 评测 )，566 inverted list (AHE), 340 
collection (文档 集 )，166 list intersection (列表 求 交 集 )，346 
inference network 《推理 网 》，116 partitioning (划分 ) 
Boolean model (布尔 模型 )，120 term-based 《基于 项 的 )，412 
combining evidences (结合 证 据 源 )，121 ranking (排序 )，348 


priors (ERE), 119 search (#83), 345 
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Boolean queries 〈 布 尔 查 询 )，348 languages (8 F) 
complex queries 〈 复 杂 查 询 ) 346 markup 〈 标 记 )，208 
multiple words (多 个 词 )，345 latent semantic indexing (潜在 语义 索引 )， 参 见 LSI 
phrase (短语 )，347 lazy evaluation 〈 惰 性 求 值 ) 348 
proximity 〈 邻 近 )，347 Levenshtein distance (Levenshtein JER), 222, 261, 385 
single word (单个 词 ) 345 lexical analysis (词汇 分 析 ) 224 
structural queries (结构 化 查询 ) 357 lexicon (词典 )， 参 见 vocabulary 
structure (结构 》，340 LFU 《近期 最 少 使 用 算法 )，463 
word position 〈 词 位 置 ) 341 library 〈 图 书馆 ) 3, 685 
inverted list 〈 倒 排 表 ) 340 ILS (图 书馆 集成 系统 )，687，691 
compressed (压缩 )，354 products (产品 )，695 
IR (信息 检索 ) vendors 〈 供 应 商 )，695 
classic (#8), 61 information environment 〈 信 息 环 境 ) 685 
computer centered view 〈 以 计算 机 为 中 心 的 和 角度) 1 integrated system 〈 集 成 系统 )，687 
early developments 〈 早 期 发 展 )，1 OPAC (联机 公共 检索 目录 )，687 
fuzzy (模糊 )，96 linear quadtrees (线性 四 叉 树 )，392 
human centered view《〈 以 人 为 中 心 的 角度 )，1 link analysis (链接 分 析 ) 456 
library 《图 书馆 )，3 macroscopic (宏观 )，456 
models (7), 57 mesoscopic (4¢ 38), 457 
taxonomy (分 类 体系 )，59 microscopic (微观 )，457 
multimedia (多 媒体 )，588 LISA reference collection (LISA 参考 集 )，167 
problem (HJ), 4 list intersection (列表 求 交集 )，346 
system architecture (系统 架构 )，5 load balancer (负载 均衡 器 )，423，460 
ISI reference collection (ISI 参考 集 )，167 load balancing (负载 均衡 )，423 
local analysis 《局 部 分 析 )，179，190，194 
J local association matrix 〈 局 部 关联 矩阵 )，191 


local clustering 〈 局 部 聚 类 ) 190 


elinek-M hod (Jelinek-Mi » 110 
Teline ercer met Celine ercer 方法 ) local context analysis 〈 局 部 上 于 文 分 析 ) 193, 194 


K local scalar matrix 〈 局 部 标量 矩阵) 192 
Log Normal distribution 〈 对 数 正 态 分布 ) 455 
K-means (K 均值 ) logical view of documents 《文档 的 逻辑 视图 )，63 
bisecting (二 分 ) 289 longest common subsequence (最 长 公共 子 序列 )，223 
clustering (3826), 286 longitudinal study 〈 纵 向 研究 )，53 
k-NN classifier (k 近邻 分 类 )，299 lost in hyperspace (迷失 在 超 空间 》，125 
Kanji (汉字 )，448，450 LRU (最 近 最 少 使 用 算法 )，463 
Kendall Tau coefficient 〈 肯 德尔 等 级 相关 系数 ) 156 LSI (潜在 语义 索引 )，101 
keyword (关键 字 ， 关 键 词 )，57，61，227 Luhn assumption (Luhn 假设 )，68 
connection matrix〈 连 接 和 矩阵) 96 LZCS (LZCS 结构 化 文本 压缩 方法 ) 250, 254 
in context (上 下 文 内 )，31 
thesaurus (同义词 典 )，229 | M 


Knuth-Morris-Pratt’s algorithm (KMP #3), 374 
KWIC (上 下 文 关 键 字 )，31 


machine learning (机 器 学 习 )，282 
Mandelbrot distribution (Mandelbrot 分 布 ) 220 


L MAP (平均 精度 均值 )，139，140 
MARC (机 器 可 读 目 录 )，205，266，689，716 
language model 〈 语 言 模型 )，107 XML 《可 扩展 标记 语言 )，215 
Bernoulli process 〈 伯 努 利 过 程 )，111 markup 《标记 ) ，208 
multinomial process (多 项 过 程 );，108 markup languages (标记 语言 );，208 
smoothing (平滑 )，109 HTML ( 超 文 本 标记 语言 )，211 


statistical foundation 《统计 基础 )，107 SGML (标准 通用 标记 语言 ) 209 
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match point (PE ACHR), 549 vector (H), 77 
MathML (数学 标记 语言 )，215 Web-based (基于 Web 的 )，125 
max fuzzy (RPK), 96 modeling 〈 建 模 ) 57 
mean average precision (平均 精度 均值 ) ， 参 见 MAP definition (定义 )，58 
mean reciprocal rank (平均 排序 倒数 )， $ MRR taxonomy (分 类 体系 )，59 
measure (测度 ) mosaics {图像 拼 接 )，608 
F CF 测度，F 值 )，144 MPEG (MPEG 标准 》，625 
MED reference collection (MED 参考 集 )，167 color (颜色 ) ，626 
mel-frequency cepstral coefficients (mel 频率 倒 谱系 数 ) 605 intensity and sampling (强度 和 采样 )，626 
merging (合并 )，345，353 lossy compression 《有 损 压缩 )，628 
metadata (元 数据 )，205 lossyless compression (无 损 压缩 )，628 
descriptive (描述 性 )，205 motion prediction (运动 预测 )，630 
Dublin Core (都 柏林 核心 )，716 MPEG-1 (MPEG-1 标准 )，633 
graphics 《图 形 )，208 MPEG-2 (MPEG-2 标准 )，633 
MARC (机 器 可 读 目 录 )，?16 MPEG-21 (MPEG-21 标准 )，635 
MODS (元 数据 对 象 描述 框架 )，?17 MPEG-4 (MPEG-4 标准 )，635 
semantics (语义 )，205 MPEG-7 (MPEG-? 标准 )，635 
metadata and catalogs 〈 元 数据 和 目录 )，716 standards (标准)，633 
metasearch 《元 搜索 ) 400, 508 temporal redundancy (ATTICA), 630 
enterprise (#21), 659 MPI GME MRO). 424 
metric access methods 〈 度 量 访 问 方 法 ) 392 MRR (平均 排序 倒数 ) 139, 142 
metric cluster (HERAK), 191 multimedia (多 媒体 )，207，587 
metrics for text classification 〈 文 本 分 类 评价 指标 ) 325 audio and video 〈 音 视频 )，620 
METS (元 数据 编码 和 传输 标准 )，717 compression (压缩 )，625 
MIMD (多 指令 流 多 数据 流 )，415 data segmentation (A A), 620 
MIME〈 多 用 途 互联 网 邮件 扩展 格式 ) 206 IR (fi SR), HR multimedia IR 
min fuzzy (模糊 极 小 )，96 machine-generated data〔〈 机 器 生成 的 数据 ) 591 
minterm 《最 小 项 ) 99 MPEG (MPEG 标准 )，625 
mirroring (镜像 )，518 segmentation (4#), 620 
MISD (多 指令 流 单数 据 流 )，415 speech segmentation 〈 语 音 分 割 )》，624 
ML (HRI), $A machine learning video segmentation (视频 分 割 )，620 
model (模型 ) multimedia IR (多 媒体 信息 检索 )，126，587 ，588 
algebraic (代数 )，60，98 audio and music retrieval (音频 和 和 音乐 检索 )，597 
Bayesian network《 贝 时 斯 网 )，116 content-based image retrieval (基于 内 容 的 图 像 检索 )，592 
belief network 〈 信 念 网 ) 122 feature ambiguity (EBX HE), 591 
Boolean (#2), 64 fusion model (WARM), 614 
comparison 《上 比较)，86 semantic gap GH XPS), 589 
extended Boolean (扩展 布尔 )，92 versus text IR (与 文本 信息 检索 的 对 比 》，589 


video retrieval (视频 检索 )，606 
multitasking (多 任务 )，416 
music retrieval (音乐 检索 )，597 
mutual information 〈 互 信息 ) 323 


fuzzy set 〈 模 糊 集 )，95 
generalized vector (广义 向 量 )，98 
hypertext 〈 超 文本 ) 124 
inference network 〈 推 理 网 ) 117 


language (A), 107 N 

LSI〔 潜 在 语义 索引 )，101 

neural network (神经 网 })，102 n-termset, (n 项 集 )，88 

others (其 他 ) 124 naive Bayes classifier (朴素 忠 叶 斯 分 类 器 )，303 
probabilistic 《概率 )，60，79，104 binary independence (二 和 值 独立 )，303 

set theoretic (集合 论 )，60，87 multinomial (多 项 )，305 


set-based (基于 集合 的 ) 87 naming audio 〈 音 频 命名 )，616 
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naming faces (ARRA), 6l4 open source search engines (开源 搜索 引擎)，7?37 
naming images 《图 像 命 名 )，615 global evaluation (全 局 评价 )，?52 
Napster (Napster 联机 音乐 商店 }，440 open system 《开放 系统 )，433 
National Science digital library (国家 科学 数字 图 书馆 )，732 orienteering (ŒM), 23 
navigation (87), 4, 24 OWL (ARMA), 217 
versus search (与 搜索 )，24 
NDLTD (联网 论文 数字 图 书馆 ) 731 P 


neighbor terms 〈 相 邻 项 ) ，193 
network topology 《网 络 拓扑 )，117 
neural network (神经 网 )，102 

model (模型 )，102 

TF-IDF ranking 《TF-IDF 排序 )，104 

thesaurus 〈 同 义 词典 )，103 
Newsgroups collection (Newsgroups 文档 集 ) 166 
NEXI CNEXI 查 询 语言 )，578 
NFA (〈 非 确定 有 限 自 动机 ) ， 和 参见 finite automaton 
NLM reference collection (NLM 参考 集 )，167 
node of text (ASE AL). 549 
non independence of index terms 〈 索 引 项 非 独立 性 ) 98 
non-binary weights ( 非 二 元 权重 )，?77 
non-cooperative system (〈 非 合作 系统 ) 433 
non-overlapping lists (JEN 339 #2), 549 
non-relevant document 【不 相关 文档 ) 65 
normalized TF-IDF 〈 归 一 化 TF-IDF), 93 
noun groups (名 词组 )，62，63，194 
nouns (4i), 62 
novelty ratio (By MK), 145 
NPL reference collection (NPL Bj), 167 
NSDL “〈 国 家 科学 数字 图 书馆 ) 732 
NTCIR collection (NTCIR 文档 集 )，166 
NY Times (纽约 时 报 数据 库 )，699 


pnorms (p 范式 )，93 
P2P 《对 等 )，401，404 
retrieval (检索 )，440 
panning (RH), 42 
parallel 
flights 《平行 航班 测试 ) 53 
parallel computing (HTHH), 414 
parallel search (并 行 搜索 ) 401, 414 
collection partitioning 《文档 集 划 分 》，405 
communication (通信 ) 402 
efficiency (效率 )，416 
inverted index (8 HP#2451) 
in SIMD architecture 〈 单 指令 流 多 数据 流 架 构 )，419 
MIMD (多 指令 流 多 数据 流 )，403，416 
number of processors 处理 器 数量 )，402 
SIMD ( 单 指令 流 多 数据 流 )，403，418 
speedup (加 速 比 )，416 
parents of anode (M47 AU). 116 
Pareto distribution (4A RESM), 456 
partitioning (84r), 425 
document collection 《文档 集 )，404，405 
index (索引 )，404 
inverted index (HHR, 409 
logical document GZH KFA), 409 


o physical document 〈 物 理 文 档 ) 410 
| signature files 《签名 文件 }，413 
objects and collections OHR AMRIK), 714 suffix arrays《〈 后 级 数组 )，413 
occurrence list〈 记 录 表 ) 340 passage (段落 )，194，203 
occurrences (UR), 340 PAT array (PAT 数组 )， 参 见 suffix array 
OCLC“〈 联 机 计算 机 图 书馆 中 心 )，689，703 PAT tree (PAT 树 )， 参 见 suffix tree 
odds of relevance (HX ERS H), 80 pattern (R), 260 
ODL (开放 数字 图 书馆 )，729 extended (扩展 )，261 
ODP (开放 目录 计划 )，452，499 prefix (ATH), 260 
OHSUMED collection COHSUMED 2c #48), 166 regular expression 〈 正 则 表达 式 )，261 
Online Public Access Catalogue 〈 联 机 公共 检索 目录 )， 参 substring (43), 260 
见 OPAC suffix UE), 260 
OPAC“〈 联 机 公共 检索 目录 ) 687 with errors (#48), 260 
bibliographic records (书目 记录 )，689 word ( 词 )，260 
integration (集成 )，693 pattern matching (模式 匹配 )，260， 和 参见 sequential search 
interface (Fifi), 691 pattern, range (HA, WE), 260 
users 《用户 )，694 PDC (BR aR), 463 


Open Linking Data 〈 开 放 链 接 数 据 项 目 )，510 PDF 《便携 文档 格式 )、206 
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peer-to-peer architecture (FRH). A&R, P2P 
Persin’s algorithm (Persin 算法 ) 349 
personalization 《个 性 化 } 

biasing 〈 偏 置 ) 672 

dynamic ranking (动态 排序 》)，674 

enterprise (企业 )，668 

information filtering (信息 过 滤 )，679 

scoping (范围 )，672 


social recommender systems (社会 化 推荐 系统 )，680 


user modeling (H i), 677 
user profiles (FAP) SMB). 677 


phrase 《短语 》 Cin text compression 《文本 压缩 )) ，234 


phrase browsing (短语 浏览 )、246 
pitch 《音调 )、603 
pooling method (HAAR). 163 
Porter’s algorithm (Porter 算法 )，227 
posting file GER XIF), AJ inverted list 
power law CRE), 454 
PPM 〈 部 分 匹配 预测 ) 236, 254 
precision 《准确 率 ， 查 准 率 ， 精 度 )，135 

appropriateness (合理 性 )，139 

atn (Ñf n), 139 

atn (average) (前 n #4), 140 

average (F34). 138 

defined (ŒX), 135 

disadvantages ($k A), 139 

histogram (直方 图 )，141 

interpolated (#1), 137 

text classification (文本 分 类 )，327 
preferential attachment (优先 连接 ) 457 
prefix (-free) code (BURR (AX) 码 )，238 
preservation 《保存 )，721 
prior probability ( 先 验 概率 );，、，119 


distribution in inference networks (推理 网 分 布 )，119 


privacy of queries (查询 路 秘 )，512 
probabilistic model (BMA), 60, 79 
advantages 《优点 )，86 
alternative 《其 他 }，104 
disadvantages (iH), 86 
fundamental assumption 〈 基 础 假设 ) 80 
ideal answer set 〈 理 想 答 案 集 》，80 
ranking formula CHEFF 2A), 82 
ranking principle (排序 原则 ) 80 
term reweighting GAARA). 183 
term weight (项 权重 )，80 
probability (BES) 
epistemological view (认识 论 观点 ) 117 
frequentist view (频率 论 观点 )，117 
prior (Æ), 119 


proximal nodes (H84), 550 
Pseudo-document 〈 伪 文档 ) 102 
Psi function (Y MH), 368 
PVM (并 行 虚 拟 机 )，424 
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query 〈 查 询 ) 4 

allowing errors 《容错 )，260 

ambiguity 〈 歧 义 )，273 

auto-complete (自动 填充 )，28 

automatic construction (自动 构建 )，165 

average length (FHKE), 267 

basic (基本 )，256 

Boolean (布尔 )，64，258 

Boolean operations 〈 布 尔 操作 ) 258 

chain ( 链 )，188，274 

characteristics 《特征 )，267 

conjunctive component〔 合 取 分 量 )，62，64 

context 《上 下 文 )，257 

correlation with text 《文本 相关 性 》，268 

difficulty GEE), 274 
clarity score (UKRE), 274 
post-retrieval algorithms (检索 后 算法 )，274 
pre-retrieval algorithms (检索 前 算法 )，276 

distribution (分 布 )，268 

extended pattern (F RRA), 261 

fuzzy Boolean (模糊 布尔 )，259 

heavy tail (HÆ), 273 

informational (ff B), 270 

intent (B, 270 

intent prediction (意图 预测 )，271 

interfaces (SP ij), 27 

keyword (XH Mil). 256 

languages (349), 255 

latency (时 延 ) 338 

log (日 志 )，267 

logical session (PSR), 274 

long tail (KB), 268 

looking at results (RAA), 268 

manual construction (人 工 构 建 )，165 

mission (fE#), 273 

natural language (A RIB), 262 

navigational 《导航 型 )，270 

number of clicks (点 击 数 )，2639 

pattern matching (AIS DCM), 260 

phrase (431%), 257 

properties (ME). 267 

protocols (fi), 265 

proximity (WIE), 258 


range 《范围 )，260 

refinding (重新 )，271 
reformulation 〈 重 构 )，32，274 
regular expression 〈 正 则 表达 式 )，261 
representation (表示 )，58，62 
session 《会 话 )，273 

single-word (单个 词 )，256 
specification (描述 )，26 

structural (结构 化 }，262 
suggestions 《建议 )，28 

syntax tree 〈 名 法 树 )，258，348 
term distribution 〈 项 分 布 )，268 
term highlighting 〈 项 加 亮 显示 )，31 
throughput 《吞吐 量 )，338 

time dynamics (动态 性 )，269 

topic (主题 )，272 

transactional (事务 型 )，270 


query expansion 《查询 扩展 )，32, 177, 181, 192 
based on a similarity thesaurus (AEF tE PRL SC ed), 195 


neighbor terms (邻居 项 )，192 
statistical thesaurus (统计 同义词 典 )，198 


through local context analysis 《通过 局 部 上 下 文 分 析 )，193 


query feedback (查询 反馈 )，276 
query mining 《查询 挖 据 )，507 
query processing (查询 处 理 ) 

enterprise search (企业 搜索 ) ，654 
query routing (查询 路 由 )，407 
query scope (查询 范围 算法 )，277 
quick links (快速 链接 ) 501 


R 


R-precision (R 精度 )，141 
RAID (独立 元 余 磁盘 阵列 )，417 
ranking (排序 )，7，57，58 
belief network vector (信念 网 向 量 )，123 


Boolean inference network (布尔 信念 网 )，120 


correlation metrics 《相关 性 测度 )，153 
enterprise (企业 )，674 

function (AM), 58 

fuzzy model (模糊 模型 )，98 
inference network (推理 网 )，119 


Kendall Tau coefficient (上 表 德 尔 等 级 相关 系数 )，156 


neural network model (神经 网 模型 )，104 
probabilistic model 《概率 模型 )，82 
process (H), 7 

Spearman coefficient (斯 皮尔 曼 系 数 )}，154 


TF-IDF for inference network (推理 网 TF-IDF), 121 


vector model 〈 向 量 模型 )，78 
Web search (Web ##), 468 


RDF (3 WRI), 205, 216 
schema (模式 )，217 
recall (召回 率 ， 查 准 率 )，135 
appropriateness (合理 性 )，139 
defined (72M), 135 
disadvantages 《优点 )，139 
effort 《代价 度 )，145 
relative (相对 )，145 
standard levels (标准 水 平 )，136 
text classification (文本 分 类 )，327 
reduced concept space( 约 化 概念 空间 )，101 
reference collection (BA), 134, 158 
region of text (KARR IR), 549 
regular expressions 〈 正 则 表达 式 )，261，382 
operations (操作 )，261 
related term suggestions (相关 项 建议 )，32 
relevance (相关 性 )，4 
judgements (判断 )，185 
relevance feedback (HEER), 177, 180 
evaluation (i¥ fff), 184 
probabilistic model (概率 模型 )，183 
through clicks (通过 点 击 )，185 
relevant document 《相关 文档 )，65 
reliability 《可 依赖 性 )，425 
replication 《复制 )，400 
repositories (AWE), $ archives 
resemblance 〈 类 似 度 ) 223 
residual collection (MAR HR), 184 
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Resource Description Framework (WHARE), $ RDF 


retrieval (检索 》 
percentage (比例)，749 
data (数据 )，5 
information 〈 信 息 )，5 
process 〈 过 程 )，7 
results display (482 MAS), 29 
unit (4450), 256 

retrieval evaluation (检索 评价 )，131 
BPREF (二 元 偏好 )，150 
DCG (折扣 累积 增益 )，145 
E-measure (E f), 143 
F-measure (F (ff), 144 
frustration (PAH), 176 
MAP (平均 精度 均值 )，140 
MRR (平均 排序 倒数 )，142 
practical caveats 〈 实 不 说 明 ) 173 
precision 《精度 ， 查 准 率 ) 135 


rank correlation metrics 《排序 相关 性 测度 )，153 


recall (召回 率 ， 查 全 率 )，135 
relevance feedback (相关 反馈 )，184 
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satisfaction 〈 满 意 度 ) 176 

search interfaces (搜索 界面 ) 50 

user oriented (面向 用 户 ) 144 

using clickthrough data 〈 使 用 点 击 数据 ) 171 
Reuters collection (Reuters 文档 集 )，166 
rich-get-richer effect 〈 富 者 益 富 效应 ) 457 
Rocchio €Rocchio 方法 ) 

relevance feedback (相关 反馈 )，180 
Rocchio classifier (Rocchio 分 类 器 ) 300 
root nodes 〈 根 结 点 )，116 
routing (分 流 ) 164 
RTF 〈 富 文本 格式 )，206 


safety 《安全 性 ) 425 
salient points (#4). 596 
salient stills (跳跃 剧照 )，608 
scalar cluster (Ef), 192 
scalar matrix (REER), 192 
scalar similarity measure (标量 相似 度 测度 )，192 
scale free networks ( 耀 尺度 网 络 )，457 
SCM (结构 化 上 下 文 建 模压 缩 方法 ) 250, 254 
scoping (范围 )，672 
SDC (静态 动态 相 结合 的 缓存 策略 ) 463, 464 
search (搜索 ) 
approximate (近似 )，385 
benchmark example (基准 测试 用 例 ) ，743 
classes of characters 《字符 类 )，378 
compressed text (压缩 文本 )，389 
distributed 《分 布 式 )，399，424 
enterprise (W), 641, 706 
exploratory (RRR). 22 
interfaces 《界面 ) 25 
interfaces evaluation 《界面 评价 )，50 
inverted index 〈 倒 排 索引 ) ，345 
multidimensional (多 维 )，391 
multiple patterns (多 重 模式 )，384 
open source (HW), 737 
organizations 《机 构 )，7?06 
parallel (并行)，399，414 
quality comparison (质量 比较 )，751 
regular expressions (正则 表达 式 )，382 
results (4932), 30, 35 
results presentation (结果 展示 )，655 
results visualization (结果 可 视 化 )，40 
sequential (序列 )，372 
signature file 《签名 文件 )，359 
single word (单个 闻 )，345 
structured text (结构 化 文本 )，545 


suffix tree (a iM), 362 

time (HFH), 749 

versus navigation (与 导航 )，24 

Web (万 维 网 )，447 

wild cards (通配符 )，379 

XML 〈 可 扩展 标记 语言 )，545 
search engine (搜索 引擎 )， 参 见 Web search 

results page (结果 页 面 )，30 
searchonym (42% [hj XH), 193 
security (保险 性 )，425 

enterprise search (企业 搜索 )，657 
segmentation (4%), 620 
self-indexes (8 #43|), 367 
self-synchronizing codes ( Á RJ), 243 
semantic indexing 〈 语 义 索 引 )，101 
semantic Web (语义 网 ) 450 
semi-static collection 〈 半 静态 文档 集 )，338 
semi-supervised learning 〈 半 监督 学 习 )，283 
sensemaking 〈 意 义 建构 ) 22 


SEO (搜索 引擎 优化 )， 参 见 Web search optimization 


sequencing (序列 )，124 

sequential search 《序列 搜索 》，372 
approximate 《近似 )，385 
automata (自动 机 )，375 
bit-parallelism 《位 并 行 )，377 
BNDM algorithm (BNDM 算法 ) 381 
Boyer-Moore (Boyer-Moore 算法 ) 374 
brute force 《暴力 ) 372 
classes of characters (字符 类 )，378 
complex patterns (复杂 模式 )，375 
compressed text (压缩 文本 )，389 
dynamic programming (动态 规划 )，385 
filtration (Wize), 388 
Horspool (Horspool 算法 ) 373 
Knuth-Morris-Pratt (KMP 算法 ) 374 
multiple patterns (ĦA), 384 
regular expressions (正则 表达 式 )，382 
shift-and algorithm (shift-and 算法 ) 377 
simple string (fA) MAREE), 373 
suffix automata 〈 后 缓 自动 机 ) 380 
Sunday (Sunday 算法 ) 374 
Thompson (Thompson 构建 过 程 )，382 
wild cards 〈 通 配 符 )，379 


SERP (搜索 引擎 结果 页 面 )，30， 参 见 Web search, result page 


set intersection (列表 求 交集 )，346 

set theoretic models (集合 论 模 型 )，87 
set-based model (基于 集合 的 模型 ) 87 
SFQL (结构 化 全 文 查询 语言 )，266 

SGML (标准 通用 标记 语言 )，161，204，209 


SHA (安全 散 列 算法 ) 479 
shift-and algorithm (shift-and 算法 )，377 
shift-and-extended algorithm (扩展 shift-and BRE), 379, 
390 
shift-or algorithm (shift-or 算法 )，396 
shingles (H Bt), 480 
shopbot 〈 网 店 机 器 人 )， 参 见 crawler 
side-by-side panels (并 排 面板 》，168 
signature (44%), 358 
signature file 〈 签 名 文件 ) 357, 359 
compressed (E4), 359 
construction (#j#t), 359 
search (搜索 )，359 
structure (4449), 358 
SIMD ( 单 指 令 流 多 数据 流 )，415 
similarity thesaurus (相似 度 同义词 典 )，195 
SISD ( 单 指令 流 单数 据 流 )，415 
sitelinks 《站 内 链接 )，32 
sitemaps 《网 站 地 图 )，500 
SMIL (同步 多 媒体 集成 语言 );，218 
smoothing (平滑 ) 
Jelinek-Mercer method (Jelinek-Mercer 方法 )，110，556 
snippet (HB), 341, 489 
snippets (片段 ) 30, 476 
social networks (#128944), 513 
social recommender systems (社会 化 推荐 系统 )，680 
software architecture (软件 架构 )，5 
sound chromagrams 〈 音 谱 图 )，604 
sound spectograms 〈 声 谱 图 )，603 
Soundex (Soundex 语音 算法 )、261 
source selection ( 源 选 择 )，407 
spaceless words model (无 空格 单词 模型 )，237 
spam (73h), #53 Web spam 
spambot (垃圾 机 器 人 )， 参 见 crawler 
spamdexing (垃圾 索引 )， 和 参见 Web spam 
spatial access methods (空间 访问 方法 )，391 
speaker identification (说 话 人 识别 )，601 
Spearman coefficient (斯 皮尔 曼 系 数 )，154 
specificity 《特异 性 )，70 
spectograms 〔 谱 图 ) 603 
speech recognition (语音 识别 )，599 
Gaussian mixture models (高 斯 混合 模型 )，600 
hidden markov models( 隐 马尔 科 夫 模型 )，600 
speech segmentation (语音 分 割 )，624 
speedup (WM), 416 
spider (Wk), R crawler 
spoken document retrieval (语音 文档 检索 ) 602 
sponsored results (广告 搜索 结果 ) 488 
sponsored search (广告 搜索 )，504 
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spread activation (激活 扩散 )，102 
stacking-based ensemble classifiers 〈 委 加 型 集成 分 类 器 ) 317 
standard collections for textclassification 〈 文 本 分 类 标准 文 
档 集 )，329 
starfields displays (是 空 显示 )，47 
STARTS (斯 坦 福 互联 网 元 搜索 协议 )，438 
statistical text model (统计 文本 模型 )，218 
statistical thesaurus (统计 同义词 典 )，198 
stemming 〈 词 干 提取 )，63，226 
Porter’s algorithm (Porter 算法 ) 227 
STEP (产品 模型 数据 交换 标准 )，251 
Stirling’s formula (Stirling 公式 )，115 
stopwords 〈 禁 用 词 ) 63, 220 
elimination (PR), 226 
storyboards 〈 故 事 板 )，607 
structured search (结构 化 搜索 )，545 
structured text 《结构 化 文本 )，357 
structured text retrieval (结构 化 文本 检索 )，126， 参见 
XML retrieval 
suffix Ci), 360 
suffix array (JG SRA), 361 
compressed (IK), 367 
construction (HŒ), 366 
suffix automata (后 缀 自动 机 )，380 
suffix tree (GSH), 361 
construction (构建 )，365 
search (194) 
complex patterns (复杂 模式 )，363 
string (43), 362 
suffix trie (JF trie 树 ) 361 
suggestions (建议 ) 
related terms (相关 项 )，32 
summary table statistics (摘要 统计 家 )，144 
Sunday’s algorithm (Sunday 算法 )，374 
supervised algorithms (监督 算法 ) 291 
decision trees (RRM), 294 
supervised learning 〈 监 督学 习 ) 283 
support vector machines (支持 向 量 机 ) ， 参 见 SVM 
SVG 〈 可 缩放 矢量 图 形 )，216 
SVM (支持 向 量 机 ) 307, 474 
SVM classifier (SVM 分 类 器 ) 306 
symbol code 〈 符 号码 ) 238 
synonym (同义词 )，191 


T 


table statistics (4Eit#), 144 
tags (474%). 232 
cloud (Z), 232 
tags (structured text) (标签 (结构 化 文本 ))，357 
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task (任务 》 
ad hoc (BAHL), 163 
Chinese (CHX), 164 
cross language (SIF), 164 
filtering (t3), 164 
high precision 〈 高 精度 ) 164 
interactive 〈 交 互 )，164 
NLP《 自 然 语 言 处 理 )，164 
spoken document retrieval (语音 文档 检索 ) ，164 
very large corpus (超大 规模 语 料 库 )，164 
taxonomies 〈 分 类 体系 )，205 
taxonomy (分 类 体系 )，231 
building 《构建 );，330 
IR models 《信息 检索 模型 )，59 
term GOH, KIR, AAW) 
correlation (HÆ), 68, 96, 100 
correlation factor (#4 XAT), 196 
expansion (9° FR), 32 
highlighting (MÆ BR). 31 
incidence contingency table (出 现 列 联 表 )，82 
neighborhoods ( 邻 域 ) 192 
probabilistic reweighting 〈 概 率 再 赋 权 ) 183 
probabilistic weight 《概率 权重 ) 80 
reweighting 〈 青 赋 权 )，181 
vector weight 《向 量 权 重 )，77 
vector weighting (|) MMA), 72 
weighting (MRAZ). 66 
weights (427), 66, 196 
term correlation factor 〈 项 相关 因子 ) 100 
term partitioning (项 划分 }，405 
term vector (Sify), 100 
term-document matrix (项 文档 矩阵 )，62，340 
term-frequency (CH), 参见 TF 
term-term correlation matrix (项 间 相 关 性 矩阵 ) 67, 96, 190 
termsets (项 集 )，87 
closed (WH), 91 
text (XÆ), 203 
entropy (W). 219 
full text (4:30), 63 
mining (GZH), 49 
properties (VED, 218 
separators (分 隔 符 ) 219 
similarity 〈 相 似 度 ) 222 
snippets〈 片 段 )，30 
structure (4944), 256 
text classification (文本 分 类 )，281 
algorithms (算法 )、284 
characterization《 特 性 )，282 
clustering (W), 286 


cross-validation (28 MRE), 329 
decision trees (ROH), 294 
ensemble classifier (集成 分 类 器 7，316 
evaluation 〈 评 价 ) 291 
evaluation metrics (评价 指标 )，325 
F-measure (F 值 )、327 
k-NN (kA), 299 
naive (#h#), 290 
naive Bayes (Ab # Mat), 303 
precision (EME, H), 327 
problem definition 《问题 定义 )，283 
recall 《召回 率 )，327 
standard collections (标准 文档 集 )，329 
supervised algorithms (监督 算法 ) 291 
SVM (支持 向 量 机 )，306 
unsupervised algorithms (AK HARM), 286 
text compression 〈 文 本 压缩 ) 233 
arithmetic coding (算术 编码 )，239 
coding (编码 ) 234, 238 
comparing techniques 〈 比 较 技 术 ) 248 
dense coding (密集 编码 ) 242 
dictionary 《词典 )，234 
dictionary methods (词典 方法 ), 234, 245 
direct searching 《直接 搜索 )，241，244 
Huffman coding (WR RWI), 238 
in IR (# BRR), 253 
inverted index structure 〈 倒 排 索引 结构 ) 340 
modeling 〈 建 模 ) ，234 
adaptive 〈 自 适应 ) 235 
high-order (Br), 236 
semi-static 〈 半 静态 ) 235 
static (静态 ) 235 
word-based (基于 词 的 )，236 
zero-order (Ht), 236 
phrase (短语 ) 234 
preprocessing (HALI), 246 
statistical (统计 》，234 
statistical methods (统计 方法 )，234 
structured text (结构 化 文本 )，249 
LZCS (LZCS 讨 缩 方法 ) 250 
SCM (结构 化 上 下 文 建 模压 缩 方法 ) 250 
XMLPPM (XMLPPM 上 压缩 方法 ) 249 
text languages 〔 文 本 语言 ) 
XForms (XForms 下 一 代 互 联网 表单 )，251 
text model (文本 模型 )，218 
Text REtrieval Conference 〈 文 本 检索 会 议 ) 159 
text structure 《文本 结构 》 
fixed (W), 263 
hierarchical 〈 层 次) 264 


hypertext (xÆ), 264 
text structure, field (文本 结构 ， 域 ) 263 
textual annotations (文本 注释 )，653 
texture (纹理 ) 593 
contrast (Xf IERE), 596 
energy (REE), 595 
entropy (4), 595 
homogeneity 〈 均 匀 性 ) 596 
TF (Gi), 68 
TF-IDF 〈 项 频 -反比 文档 频率 ) 
normalized factors 〈 归 一 化 因子 ) 93 
properties (PEJA), 74 
variants (48 {K), 73 
weights (42H), 68 
thesaurus (A XHA), 96, 193, 228 
built-in (ASHE), 103 
concept (概念 )，229 
keywords (关键 词 )，229 
similarity (HME), 195 
statistical (统计 )，198 
term relationships 《项 间 关 系 )，230 
use 《应 用 )，230 
Thompson’s algorithm (Thompson 算法 ) 382 
thumbnails (HEI), 46 
timbre (音色 ) 603 
TIME reference collection (TIME B49 3c #4), 167 
TIPSTER (TIPSTER 文本 计划 )，159 
program 《计划 )，160 
tone height《 音 高 )，605 
topic 《主题 )，162 
topic diffusion 《主题 扩散 )，471 
topology (拓扑 ) 
belief network (A&M), 122 
inference network 〈 推 理 网 ) 117 
total frequency in collection (文档 集 总 频率 ) 67 
total term frequency CA HMR), 67 
training set (训练 集 )，291 
TREC (文本 检索 会 议 )，163，743，745 
average precision histogram (平均 精度 直方 图 ) 166 
benchmark (基准 )，163 
document (文档 )，161 
document collection (文档 集 )，160 
document level averages (文档 等 级 平均 精度 )，165 
enterprise track (企业 搜索 任务 )，663 
evaluation measures (评测 指标 )，165 
information request (信息 需求 )，163 
recall-precision averages (平均 召回 率 -精度 )，165 
summary table statistics (摘要 统计 表 )，165 
Web site (网 站 )，160 
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triangle inequality 《三 角 不 等 式 }，222 
trie (trie 树 }，361 
trust bias 《信赖 偏好 ) 187 


U 


unary code (一 元 码 )，355 
uniterm system (Uniterm 系统 )，132 
universal search (统一 搜索 ) 30, 491 
unsupervised learning 〈 无 监督 学 习 ) 283 
URI (统一 资源 标识 符 ) 206 
URL 《统一 资源 定位 符 ) 206 
user (HP) 
behavior (行为 )，186，269 
goals (目标 )，50 
judgement (HW), 181 
modeling 〈 建 模 ) 677 
need (ŒR), 7 
preferences through clicks 《点 击 偏 好 )，187 
profile (轮廓 )，677 
relevance feedback (相关 反馈 )，180 
task (Œ), 4, 50 
user-centered design 〔〈 以 用 户 为 中 心 的 设计 )，50 


V 


variants of TF-IDF (TF-IDF 变 体 )，73 
vector model (m Mi), 60, 77 
advantages (ÈH). 79 
definition (ŒX), 77 
norms (#220), 76 
ranking (HERR), 78 
vector term (HAM) 
weighting (BRE), 72 
weights (42H), 77 
vertical crawler (HEH MER). 517 
vertical search 《垂直 搜索 ) 126 
video retrieval (视频 检索 ) 606 
abstracts (422), 606 
browsing (RYH), 606 
dynamic summaries (动态 摘要 )，609 
interactive summaries 《交互 式 摘要 )，611 
mosaics and salient stills 《图 像 拼接 与 跳跃 剧照 )，608 
static summaries 《静态 摘要 )，607 
storyboards 《故事 板 )，607 
video segmentation (视频 分 割 )，620 
edges (H). 623 
schemes (773), 622 
virtual processing ratio 〈 虚 处 理 比 )，419 
virtual processors (HALIL), 419 
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virtual reality (虚拟 现实 )，208 
visual browsing (视觉 浏览 ) 612 
visualization (可 视 化 ) 
query terms in context 《上 下 文中 的 查询 项 )，43 
relationships among words anddocuments (词语 和 文档 
间 的 关系 )，47 
text mining (文本 挖 据 )，49 
visualization of search results 《搜索 结果 可 视 化 ) ，40 
VLC2 collection (VLC2 文档 集 ) 162 
vocabulary CAWR), 62, 221, 237, 340 
space (4Sfa]), 343 
vocabulary-set (词汇 表 集 )，87 
VRML (虚拟 现实 建 模 语言 ;，208，251 


Ww 


WAIS〈 广 域 信 息 服务 )，266 
wavelet tree (MRI), 371 
WDSL (互联 网 服务 描述 语言 ;，216 
Web, 8, 447, 451 
advertising (广告);，504 
book Web site (本 书 网 站 )，16 
bow-tie (SA Itti a5 Hy), 452 
characteristics (##¥E), 451 
characterization 《刻画 )，518 
communities (社区 )，457 
components (分 支 )，452 
core component (核心 分 支 )，452，453 
data mining 《数据 挖 据 )，506 
directories (H 3), 499 
duplicated pages 《重复 页 面 )，479 
dynamic pages (动态 页 面 )，520 
history 《历史 ), 8 
hypertext《 超 文本 )，501 
impact on search 《对 搜索 的 影响 )，10 
largest strongly connected component 〈 最 大 强 连 通 分 
支 ) 452 
link analysis (链接 分 析 ) 456 
link graph compression (链接 图 压缩 )，478 
link graph structure 《链接 图 结构 )，452 
metadata 〈 元 数据 )，459 
metasearch (元 搜索 )，508 
practical issues 《实际 问题 )，12 
private (ALA), 520 
public 《公共 ) 520 
semantic (语义 )，450 
site analysis 《网 站 分 析 )，519 
spam 〔( 垃 圾 )， 参 见 Web spam 
static pages (静态 页 面 )，520 
Web crawler (Web JE), AI crawler 


Web mining (Web HHH), 506 


content (PÆ), 506 

link structure (链接 结构 )，507 
queries 《查询 )，507 

usage (用 途 )，507 


Web retrieval (Web 检索 ) ， 参 见 Web search 
Web search (Web 搜索 ) 447 


actionable results (可 执行 的 结果 ) 496 
advanced search (高 级 搜索 )，481 
answers ( 管 案 )，450 
architecture (4#), 458 
centralized (# HA), 458 
cluster based 〈 基 于 集群 的 ) 459 
distributed (分 布 式 ) 466 
multi-site (434A), 467 


assigning ids to documents (为 文档 分 配 标识 符 ) 477 


caching (FF), 462 
answers (答案 ) 462 
inverted lists (fA AEA), 463 
content delivery 《内容 传送 )，512 
data quality 〈 数 据 质 量 )，449 
data volume (数据 容量 ) ，449 
distributed data (分布 式 数据 )，449 
duplicated pages (重复 页 面 )，449 
dynamic data 《动态 数据 )，509 
effectiveness (HAPE), 486 
efficiency (效率 ) 486 
heterogeneous data 〈 异 质数 据 ) 450 
metadata 〈 元 数据 )，478 
multimedia (多 媒体 )，510 
multiple indexes (多 级 索引 )，464 
oneboxes (oneboxes 直接 结果 )，490 
optimization (#844), 477 
query facets (查询 分 面 )，495 
query languages 《查询 语言 )，482 
query log privacy (查询 日 志 隐 私 性 )，512 
query recommendation (查询 推荐 )，493 
content aware 《内容 感知 )，493 
content ignorant (内 容 无 关 )，494 
hybrid GHA), 494 
query-flow based (基于 查询 流 的 )，494 
querying (查询 )，450 
ranking 《排序 )，468 
authority (权威 度 )，470 
content signals 《内 容 信 号 )，469 
HITS ( 超 文 本 推导 主题 搜索 )，470 
hub (AKA), 471 
in-link count (A$ $O. 470 
learning a function (%3 KAO, 474 


learning to rank (排序 学 习 )，473 
link-based (基于 链接 的 )，470 
structure signals (结构 信号 )，469 
usage signals (用 途 信 号 )，469 
redundant data 〈 宛 余数 据 ) 449 
result page (结果 页 面 ) 488 
semantic (语义 )}，510 
snippet (HEt), 489 
spelling assistance (拼写 帮助 )，493 
spelling correction (拼写 校对 )，486 
structured data (结构 化 数据 )，449 
suggestions (建议 )，484 
deduplication (32%), 486 
diversity (BRE), 487 
filtering 《过 滤 ) 486 
freshness 〈 新 鲜 度 ) 487 
personalization 《个 性 化 )，487 
teaching the user 《培养 用 户 》 497 
user interaction 《用户 交互 )，480 
simplicity rule (简单 性 规则 )，480 
volatile data (不 稳定 数据 )，449 
web query languages (Web 查询 语言 )，503 
Web spam (Web 473%), 476 
click-based (HEF AHH). 477 
content-based (HEF AA AY). 477 
link-based (基于 链接 的 ) 477 
Web-slang (Web Ei), 508 
WebTREC (WebTREC 文档 集 ) ， 参 见 WT10g 
weighted information gain (WILE A436), 276 
weights (40) 
IDF 〈 反 比 文档 频率 ) 70 
term-frequency 〈 项 频 ) 68 
TF-IDF (项 频 - 反 比 文档 频率 》)，68 
vector model (HJERM), 77 
Wikipedia (维基 百科 )，491，495 
wild characters GRACH). 262 
wisdom of crowds 〈 群 体 智 慧 ) 507 
word pattern 《词汇 模式 )，390 
word similarity 《单词 相似 度 )，260 
word-based modeling 〈 基 于 词汇 的 建 模 ) ， 参 见 text com- 
Pression, 254 
World Wide Web (万 维 网 )， 参 见 Web 
World Wide Web consortium (万 维 网 联盟 )，514 
WTl0g (WT10g 文档 集 )，748 
WT10g collection (WT10g 文档 集 ) 162, 744 
WT2g collection (WT2g 文档 集 )，162 


X 


XForms (XForms 下 一 代 互 联网 表单 )，251 
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XHTML 〈 可 扩展 超 文本 标记 语言 )，213 
XML 〈 可 扩展 标记 语言 )，214 
XML retrieval (XML RÆ), 545 


content-and-structure topics (内 容 和 结构 主题 ) 567 
content-only topics (Py EM), 567 
document collections 〈 文 档 集 )，566 
dynamic structure (SARAH), 547 
evaluation (评价 )，566 
measures (测度 ) ，571 
precision 《精度 )， 572 
recall (召回 率 ) 572 
exhaustivity (JRH), 570 
explicit structure 〈 显 式 结构 ) 546 
implicit structure 〈 隐 式 结 构 ) 546 
indexing (索引 )，553 
INEX (INEX XML 检索 评测 )，566 
multiple hierarchies (多 层次 结构 )，548 
non-overlapping lists (EFH XIX), 549 
proximal nodes (#84 A), 550 
query languages (查询 语言 )，573 
clause-based queries (FAJAH), 577 
content constraints (HAAR), 574 
content-and-structure〈 内 容 和 结构 )，575 
content-only (A). 575 
FLWOR (FLWOR 表达 式 )，580 
NEXI (NEXI 查询 语言 )，578 
path-based queries 〈 路 径 查 询 )，576 
pattern matching constraints (模式 匹配 约束 ) 574 
structural constraints (结构 约束 )，575 
tag-based queries (RS HW). 576 
XPath (XML RHA). 577 
XQuery (XML 查询 语 育 )，579 
XQuery Full-Text (XML 全 文 查询 语言 )，581 
ranking (HEFF), 551, 554 
aggregation (RAGE), 560 
contextualization (上 下 文化 策略 ) 558 
element scoring 《元素 评分 策略 ) 555 
merging (合并 策略 )，562 
overlaps (#4), 565 
propagation 《传播 策略 )，558 
structural constraints 《结构 化 约束 )，563 
relevance (相关 性)，569 
single hierarchy (单一 层次 结构 )，548 
specificity 《特异 性 }，570 
static structure (固定 结构 )，547 
structuring power (结构 化 能 力 )，546 
tasks (任务 )，568 
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XMLPPM (XMLPPM 压缩 方法 ) 249, 254 image search (图像 搜索 )，488 
XPath (XML 路 径 语言 ) ，577 search 〈 搜 索 )》 480, 483, 484, 490, 491, 494-496 
XQuery (XML 查询 语言 )，579 search shortcuts 《搜索 快捷 方式 }，491 
XQuery Full-Text (XML 全 文 查询 语言 )，581 Yule process (Yule 过 程 )，457 
Y l Z 
Yahoo (HŒ), 481, 482, 484, 486, 491, 492, 504, 506 Z39. 2 (Z39. 2 标准 )，689 
answers ({a]#>, 480, 491, 495 Zipf’ s law (FF RIM), 71, 220, 237, 455 
assist (HF), 485, 486 Ziv-Lempel compression (Ziv-Lempel 压缩 方法 ) 245, 254 
context match (E FXE), 504 zooming (497%), 42 


directory (H3), 452, 499, 501 


